跳过正文

你的声音和脸,如今都成了凭证:抵御 AI 克隆的 OPSEC(2026)

·132 字·1 分钟
Cora Aegis
作者
Cora Aegis
隐私是权利;工具是我们行使它的方式。
目录
AI-Age OPSEC - 这篇文章属于一个选集。
§ : 本文
一位银色短发、红色眼眸、神情平静的女性,她的脸在一侧正消融成一道声波和一格人脸识别的网点——同一副五官,被同时画成一把钥匙和一个靶子

关于资金:CypherpunkGuide 不投放监控型广告——没有广告网络,没有跟踪像素,也没有软文。运营依靠透明的资金来源:现阶段是读者捐赠,将来会加入订阅以及符合编辑方针的联盟推广。我们面向读者,而非广告主。

我用化名写作,又是一个女性,所以每次开口录任何东西之前,这都是我掂量在先的那道威胁。一副熟悉的声音、一张熟悉的脸,过去背后那条假设是:它能自证身份。你母亲在电话里听见你的声音,那就是你,因为伪造它,得有你本人参与。这条假设,没了。你拿来当作"是你"之证据的那些生物特征——你声音的音色、你脸部的几何、甚至你行文的节奏——如今都成了模型可用来冒充你的原料,而素材,正是你亲手发布出去的。

这是 AI 时代威胁模型 里被打破的第四条前提,它值得单独拿出来讲,因为它的防御很不寻常:几乎全在预防。一段声音样本,你撤不回来;而且我们会看到,你也没法可靠地让一个模型把它忘掉。所以功夫都得下在前头——你放出去什么,以及你事先和那些可能因你而被盯上的人,约定了什么。下面就讲清楚这道难题的双重面目、为什么它格外重地压在女性和任何具名发声者身上、那套能压低你暴露面的最小化做法,以及上一篇只许下承诺、却没展开的那套完整验证协议。

你的生物特征,同时成了登录凭证和攻击靶子
#

**凭证,是能证明身份的东西;攻击面,是对手可以利用的东西。声音、脸和行文风格,如今两者一身——同一组特征既替你作保,也让一个模型得以伪造你。**这场崩塌是新近的,也是测出来的。微软的研究者在2023年展示,他们的 VALL-E 模型只凭一段3秒的样本就能合成出一位说话者的声音;几张照片,就够拼出一张以假乱真的合成脸;一整批你的帖子,就够模仿你怎么写字。这一切,除了你当初已经发布过,再不需要你的任何配合。

让这成为一道凭证难题、而不只是一道伪造难题的,是各家机构恰恰在生物特征变得廉价可伪的当口,开始信任它。银行上线了声纹电话身份核验;家人靠一副认得出的嗓音;助手认脸解锁。美国联邦贸易委员会(FTC)把后果直接点了出来:2023年11月发起"声音克隆挑战赛",又在2024年4月发布了《应对 AI 驱动的声音克隆之道》。那件替你证明身份的东西,如今正是那件出卖你的东西。

你的生物特征今天被当作凭证信任于如今同时又是攻击面,因为
声音银行电话身份核验、家人信任、语音助手一段约3秒的录音就能产出一份以假乱真的克隆
照片身份核验、社交背书、设备解锁几张图片就能产出一张合成脸
行文风格“听着就是他”一整批帖子就能做风格迁移

落到防御上的后果是:你该停止把这些当成能自证身份的东西。电话里的一副声音,不再是证据;视频里的一张脸,不再是证据。本文往下的一切,都从接受这一点开始。

为什么这一击对女性和化名者最狠
#

**这份风险并不是均匀分布的。冒充、伪造的私密影像、以声音为饵的诈骗,都不成比例地落在女性身上,落在任何招来了蓄意骚扰者的人身上——这就让它成了一道关乎身体与名誉自主的题,而不只是数据卫生。**各家来源指向的方向一致。一项2019年的 Deeptrace 研究发现,96% 的深度伪造视频是色情内容,而被盯上的个体几乎全是女性;深度伪造追踪公司 Security Hero 在2023年的一份行业调查里,把色情内容的占比抬到 98%,被盯上者中 99% 是女性。这些是追踪型研究,不是政府数据——但它们的方向,被更硬的报道所佐证。

2024年12月,美国阳光计划(American Sunlight Project)发现,美国国会里大约六分之一的女议员——约 16%——曾被做进未经同意的深度伪造影像,而女性被盯上的频次,约为男性的70倍(最早由 The 19th 报道)。联合国妇女署(UN Women)梳理这个更大的图景时指出,在美国,超过半数的深度伪造受害者动过轻生的念头,而数字暴力又往往溢出到线下的骚扰。这份伤害不是抽象的名誉风险;它是定向的、带着性别的,且专为让人噤声而设计。

对一个化名创作者来说,这道困境收紧成了一个矛盾。一个具名的人格,是靠声音和现场感搭起来的——一档播客、一场演讲、一张让作品显得有人味的脸——可每一段干净的录音、每一张正脸照片,同时也是训练素材,喂给某个想要冒充这个人格、或想把它接回我法律意义上那个本人的人。最小化,也就是下面要讲的第一道防御,直接与传播力相抵。我不会假装这股张力不存在;我要做的,是教你怎样去打理它,而不是反过来被它打理。

预防为先:把你发布的样本降到最少
#

**第一根杠杆是最小化:减少你放上公开网络的生物特征原始样本的数量与清晰度,同时认清这是缓解,不是根治。**这和 AI 规模化去匿名化 遵循的是同一套逻辑——最廉价的攻击,读的是你早已发布的东西,所以杠杆最高的控制,落在任何"事后撤稿"的上游。一份克隆的质量,被它的训练素材所封顶。又长、又干净、独自一人的录音,是最理想的样本;嘈杂、短促、有他人在场的音频,则是糟糕的样本。供给哪一种,由你来选。

具体说,这意味着尽你所能,把那个具名人格的媒体,和高清晰度的生物特征采集分开,并剥掉那些把样本钉死在某时某地的元数据。对一个公开创作者来说,目标不是缄默——而是让样本质量相对于传播力被有意地拉低:用合录的音频取代独白、用一个插画头像去承载具名身份而不是把一张真脸接上法律姓名、并且死守一条底线,绝不让你的声音兼任身份核验的凭据。

你发布了什么它制造的风险暴露更低的替代做法
又长、又干净、独自一人的声音录音一份高清晰度的训练样本更短的片段;合录的音频;让人声底下垫上环境噪声/音乐
接上法律姓名的正脸照片一张脸外加一道身份连接给具名人格用一个插画头像;让真脸离法律姓名远远的
把声纹当作银行/登录凭据一份克隆就成了一张能用的凭证关掉声音核验;改用非生物特征的第二要素

这些没一样是根治,说成根治就是不诚实。已经公开的样本,照样留在公开网络里,而一个铁了心的对手,拿糟糕的素材也能开工。最小化降低的,是一次成功克隆的概率与逼真度;它并不把它们清零。这恰恰是为什么它要和第二根杠杆搭配——后者,干脆假定克隆终将出现。

验证协议,完整版
#

**第二根杠杆是预先登记的信任:事先、且在带外,和那些可能因你而被盯上的人,约定好一道验证步骤——这样一副克隆的声音,就没法凭空制造出紧迫感。**多数建议止步于"定个家庭暗号"。这个直觉是对的,却是一套不完整的协议。一个暗号管用,不是因为它保密,而是因为它逼出第二道核验——独立于攻击者所控渠道的核验——就在紧迫感被当作武器的那一刻。要把整套机制围着这条原则来搭,而不是围着一句共享的短语。

设计准则很简单:**验证绝不能和请求走在同一条渠道上。**一副克隆的声音掌控着打进来的那通电话;它掌控不了你回拨一个早已存好的号码,也掌控不了一段它从未被训练过的私人记忆。情景记忆——某个具体的共同瞬间,而不是一桩随处可贴的事实——正是模型合成不出来的那部分你。

协议要素怎么设置为什么克隆破不了它
带外规则用一条和请求不同的渠道来验证(来电 → 发条短信到已知号码)克隆掌控一条渠道,掌控不了独立的第二条
共同记忆问答一个只能凭某段共同经历回答、且从未贴出过的问题;定期轮换模型合成声音,合成不出私人的情景记忆
回拨纪律挂断;回拨你早已存好的那个号码化解被伪造的来电显示和时间压力
胁迫信号一个事先约定的词,意思是"我正被胁迫——照做,并去找人求助"覆盖人是真的、却被逼迫的情形
化名扩展对化名联系人,事先在带外共享一个一次性令牌,不与法律身份绑定让化名得以验证,又不必去匿名化

最后那一行,是专为我这样的人写的,也是任何"家庭暗号"指南都不会讲的一条。如果你信任的联系人只把你认作一个化名,你就没法退回到共享的家史上去——那会捅破人格与本人之间的那道墙。一个一次性验证令牌——在加密渠道上交换一次,用来引导出一道轮换的问答——能让一张由化名协作者织成的网彼此核验身份,而谁也学不到一个法律姓名。这套协议能从两口之家一路扩展到分布式的活动人士或创作者网络,恰恰是因为它从不依赖一个共享的法律身份,只依赖一个在带外立好的共享秘密。

“删掉不就完了"行不通——所以预防才是这盘棋的全部
#

**预防在这里挑着大梁,因为删除担不起这副担子。把一段声音或一张脸从已训练好的模型里移除,放到生产规模上,至今仍是一项研究阶段、尚未成熟的能力——而不是你今天能按下去的某个按钮——所以真正管用的控制,是不放出那个样本。**这和你已发布足迹的持久性是同一道交接:时机胜过事后打扫,因为吸收是持续的,移除是局部的。

这方面的研究,对自己的局限很诚实。《麻省理工科技评论》在2025年7月报道,研究者能让一个文本转语音模型"遗忘"某一位特定说话者,但这个过程要花上好几天,会略微拉低模型被允许的那些声音的质量,且用研究者自己的话说,要真正派上用场,“还需要更快、更可扩展的方案”。所以准确的说法不是"删除不可能”——而是说,机器遗忘至今仍是一项研究阶段的能力,而不是你今天能按下去的某个按钮。把任何"移除我的声音"的服务,都当成局部的、面向未来的东西看待,而不是一个撤销键。

这就把一切的次序重排了。如果样本一旦公开就实际上是永久的,那么唯一完全有效的控制,就坐落在发布之前——而次优的控制,是那套假定克隆已经存在的验证协议。检测工具和撤稿服务自有其位置,但它们是最外、最弱的一圈。内圈那两环——最小化,以及预先登记信任——才是你能完全掌控的。

关键要点
#

  • **声音、脸和文字,如今同时是凭证和攻击面。**别再把一副认得出的声音、一张认得出的脸,当成能自证身份的证据。
  • **防御是预防式的,不是反应式的。**一段约3秒的录音就能克隆一副声音;你撤不回一个样本,而遗忘还没到能用于生产的地步。
  • **这份威胁带着性别。**合成的私密影像和冒充,压倒性地落在女性和公开化名身上——这是身体与名誉的自主,不只是数据卫生。
  • **让样本质量相对于传播力降到最低。**合录的音频、给具名人格用头像、不上声纹登录、剥掉元数据。
  • **预先登记一道带外验证步骤。**回拨纪律、一道共同记忆问答、一个胁迫信号,以及——对化名者——一个能验证却不去匿名化的一次性令牌。

常见问题
#

AI 真能从一小段录音里克隆我的声音吗?
#

能。2023年微软的一个研究模型,展示了从一段3秒样本里合成声音,而如今的商用工具也已提供类似的短样本克隆。在2025年加州大学伯克利分校的一项研究里(Barrington & Farid,《Scientific Reports》),听者把这类克隆错当成真人声音的比例约为 80%。落到实处的教训是:把你声音的任何一段干净、公开的录音,都当作一份可用的样本,并减少它们存在的数量。

家庭"暗号"真的有用吗?
#

当它逼出一道核验、走在攻击者控制不了的渠道上时,它就有用——这正是为什么更强的版本,是回拨一个已知号码,外加一个只能凭私下、共享的记忆回答的问题,而不是一句静止不变的短语。一个口令可以被猜中、被偷听、被社会工程套走;而一道轮换的共同记忆问答,加上一个胁迫信号,要坚韧得多。那句短语,是协议的种子,不是协议的全部。

我能把声音或脸,从已经拿它训练过的 AI 模型里移除吗?
#

今天,在规模上,做不到可靠。研究者能让一个模型"遗忘"某位说话者,但这个过程缓慢、不完美,且尚未部署进生产系统(据《麻省理工科技评论》,2025)。退出选项和"请勿训练"信号,多半只影响平台愿意遵守它们的那些未来的吸收。把移除当成局部的、面向未来的东西看待——这恰恰是为什么,少发布你放出去的东西,比任何事后撤稿都更要紧。

为什么偏要把这件事框定为一个女性议题?
#

因为数据是一边倒的。追踪型研究把女性置于深度伪造色情靶子里的绝大多数,而美国阳光计划的一项研究发现,国会里大约六分之一的女议员被做进了未经同意的影像——约为男性的70倍。一套对真正被盯上的是谁视而不见的防御,会让最危险的那群人受护不足,所以这里的协议,是围着骚扰与冒充那套威胁模型搭的,而不只是围着诈骗那一套。

最有效的单一一步是什么?
#

别再让你的声音或脸充当身份核验的要素——在存在非生物特征第二要素的地方,关掉声纹银行核验和"你是什么"那类生物特征登录。这是唯一一招,能立刻把一张能用的凭证从攻击者够得着的地方撤走,而最小化和验证协议,则去做那些更慢的、结构性的功夫。

AI-Age OPSEC - 这篇文章属于一个选集。
§ : 本文