
关于资金:CypherpunkGuide 不投放监控型广告——没有广告网络,没有跟踪像素,也没有软文。运营依靠透明的资金来源:现阶段是读者捐赠,将来会加入订阅以及符合编辑方针的联盟推广。我们面向读者,而非广告主。
自从有了运营安全(OPSEC,即站在觊觎者的角度思考,从而保护信息的一门功夫),它就一直建立在对手的同一幅画像之上:一个人。一个有预算的调查员。一个有耐心的跟踪者。一个招募者、一名边检官员、一位前任。你学会了搭建一份威胁模型——一张简短而诚实的地图:你要保护什么、谁想要它、对方实际能做到什么、你为阻止他们要付出多少代价——然后把力气花在地图标出的要紧之处。在数字生活的二十年里,这张地图够用了。
如今它在四个具体的地方失效了,因为对手越来越不是人,而是机器。机器不会疲倦,不会遗忘,不需要搜查令就能读取本已公开的内容,也不在人的尺度上工作。这一转变并非空想:在2026年3月皮尤研究中心的一份综述中,50% 的美国成年人表示,对 AI 的扩散感到忧虑多于兴奋——这一比例较2021年的 37% 有所上升——而更早一份针对了解 AI 的人群的皮尤调查发现,81% 的人预期自己的个人信息会被以令其不安的方式使用。这份担忧是理性的。我们一直盯着本站自己的服务器日志,留意那十来个会自报身份的 AI 爬虫 user-agent——GPTBot、ClaudeBot、PerplexityBot、Google-Extended 及其同类——它们持续不断地造访,按它们自己的节奏,而不是我们的。
下面这套"四前提"的框架,是我们梳理过现有的隐私指南之后才搭出来的——梳理之下发现,那些指南要么在为企业级 AI 系统做防护,要么止步于一份消费级工具清单,把个人自己的威胁模型留作空白。
那么,当对手是机器时,你该如何重建威胁模型?不是去寻找一个删除按钮——没有任何按钮能伸进模型训练好的权重里。重建之法,正如你发现家里的锁不再配得上门之后会做的那样:一个前提一个前提地来。下面是 AI 打破的四个前提、每一个改变了什么,以及你余下的精力究竟花在哪里才能真正缩小暴露面,而不只是图个心安。
| 传统 OPSEC 假设…… | 机器对手却…… | 你真正的着力点 |
|---|---|---|
| 把散落的数据拼起来既慢又费人工 | 廉价而即时地关联数百万碎片 | 减少跨场景可关联的东西 |
| 你只暴露自己选择发布的内容 | 从模式中推断你没发布的事实 | 经营信号,而不只是言辞 |
| 在源头删除就能移除数据 | 早已把副本吸收进模型权重 | 在发布时预防;删除只是部分有效 |
| 伪造身份需要你的参与 | 合成你的声音、面孔与文字 | 预先约定信任;尽量少留原始样本 |
前提一——关联不再缓慢#
**大规模关联,是 AI 打破的第一个前提。机器能把单看无害的数据点——一个重复使用的用户名、一张照片内嵌的位置、你发帖的作息节奏——拼成一份完整画像,比任何人类调查员都更快、也便宜得多。**旧时的保护靠的是阻力:把你的账号串起来要耗一个人好几个钟头,所以多数对手根本懒得动手。这层阻力没了。
这里说的关联,是把彼此分离的信息片段连成一幅画。危险从来不在某一条帖子,而在那个连接。你的职业账号和匿名账号共用同一句口头禅。一张风景照在其元数据(即附在文件上、记录拍摄时间地点的隐形数据)里带着 GPS 坐标。一条收货评价、一份比赛成绩、一张公开心愿单:单看每一项都无足轻重,合在一起就是一份档案。机器生来就是为了在数百万条记录里一次性找出这些连接。
这让一条经典法则需要重写。“不要发布任何敏感内容"一向是不完整的,因为敏感往往是涌现出来的——只有当碎片组合时它才现形。取而代之的功夫是 区隔(compartmentation):刻意不让你的各个场景共用可关联的特征。不同身份用不同的用户名、不同的行文语气、在要紧之处用不同的设备和网络;任何东西离手之前,先把元数据剥掉。如果是国家亲自强制你交出、随后又被拿去关联的数据,那是另一道相关的威胁,自有其应对手册——当政府泄露你的数据。
前提二——你暴露的,多于你发布的#
**推断,是第二个被打破的前提:模型能从你确实发布过的内容的模式里,推断出你从未透露的事实——你大概的位置、雇主、健康状况、人际关系,乃至性取向。**旧的心智模型是一本账:你的暴露量等于你打出的字的总和。推断把这本账变成了一个面,连那些留白也在说话。
其机理就是寻常的机器学习。给够例子,模型就学到:以某种方式行文、关注某些账号、在某些时段发帖的人,往往共享某些特征——然后它把这套模式套到你身上。你没说自己在哪座城市;可你照片的背景、你那些"早安"的时间戳、你反复用的本地俚语,都把它暗示了出来。这正是为什么一通狂删会让人觉得卓有成效,实则收效甚微:删掉一条帖子,很少能删掉那条让推断得以成立的模式。
着力点在于经营 信号,而不只是言辞。把对手会去挖掘的模式打乱或模糊掉——发帖时间、地点背景、把两个身份系在一起的语言指纹——并把任何泄露人际关系与位置的数据当作最高价值的目标,因为推断正是借由它们叠加得最快。对多数人而言,现实的目标不是彻底击败推断,而是把它的错误率抬高到足以让你不再是最廉价的那份可建档对象。这些推断链条从头到尾是如何运转的,本系列将有一篇同伴文章作更完整的剖析。
前提三——删除不再够得着数据#
**永久,是 AI 打破的第三个前提。你的公开文字或图像一旦被吸收进模型的训练数据,删掉原文也无法移除模型已经学到的东西——不存在任何能伸进训练好的权重内部的"删除”。**旧的承诺是可逆:一个错误可以被撤回发布。可面对模型,发布更像是一道单向门。
公开的帖子、配文和图片,会被收集进网络规模的大型数据集——其中最著名的是 Common Crawl,即公开互联网的网络规模存档,多数主要实验室都用它训练——再被用来训练语言模型与图像模型。研究"机器遗忘(machine unlearning,即设法让训练好的模型忘掉特定数据)“的学者,普遍把这个问题视为真正困难、在大规模场景下至今未解;唯一可靠的补救,是剔除该数据后重新训练,而模型所有者几乎不会为某一个人这么做。而且,被吸收并不是一团无害的模糊:安全研究者已经实证表明,训练数据的片段可以从大模型中被重新提取出来。
这一维度,是 AI 时代与"永久网络"这个老问题最直接相遇之处,因此与其重复,不如就此交接:什么能挺过删除——备份、数据经纪商、网页存档与训练语料——其完整的自查手册,收在社交媒体数字足迹有多持久?里。要带走的威胁模型结论很直白:时机胜过善后。 因为采集是持续发生的,唯一完全有效的控制,就是一开始根本不发布那件敏感的事。事后施加的每一道防御都只是部分有效——单凭这一点,就该把你的优先级从删除工具那头,挪向"你究竟要不要发布"这头。
前提四——你的声音和面孔,如今成了凭证#
**合成身份,是第四个被打破的前提:只需一小段你的声音、面孔或文字样本,模型就能生成以假乱真的伪造——你当作"本人"证明的那些生物特征,反过来成了冒充你的原料。**旧的假设是,伪造你的身份需要你的参与或你的秘密。如今它只需要你已发布的媒介。
几秒清晰的音频,就足以克隆声音;几张照片,就足以合成相貌;一批你的帖子,就足以模仿你的文风。这让多数人浑然不觉、却一直依赖的一层保护崩塌了——熟悉的声音或面孔本身即是认证。而且这份风险并不是均匀分布的。冒充、伪造的私密影像、以声音为媒介的诈骗,不成比例地落在女性身上,落在任何招来了蓄意骚扰者的人身上——这就让这一维度成了关乎身体与名誉的主权问题,而不只是数据卫生。
这里有两个着力点。第一是 最小化:限制你发布的原始生物特征样本的数量与清晰度——少一些高保真的语音片段,少一些与法定姓名绑定的正脸照——并接受这只是缓解,不是根治。第二是 预先约定的信任:提前、在带外(即通过攻击者无法截获的另一条通道)与要紧的人约定一道验证步骤——一个暗号、一个回拨号码、第二条通道——这样电话里一段克隆的声音,就无法凭空制造紧迫感。关于"声音与面孔即凭证"的专门论述,连同完整的家庭验证协议,本系列将另文呈现。
重建模型——四维度自查清单#
**为 AI 时代重建威胁模型,就是把四个经典的 OPSEC 问题,对着机器对手重新问一遍,然后重新决定你的精力花在哪里才能改变真实的暴露。**你不需要把每个维度都同等防护;你需要找出哪一个是你最薄弱的一环,从那里下手。我们自己走过这套框架后,看到被低估得最多的维度是推断——人们守着自己说出口的话,却忘了它周围的模式同样在大声宣告。
把你自己的处境,放进这四个维度走一遍——以下是为没有特定对手的人排的大致优先次序:
| 维度 | 机器做的事 | 你的着力点 | 从哪开始 |
|---|---|---|---|
| 永久 | 把你发布的东西留存在模型权重里 | 少发布;把公开版本当作删不掉的来对待 | 优先——它不可逆 |
| 合成身份 | 用少量样本伪造声音与面孔 | 少留原始样本;预先约定带外验证 | 优先——对个人伤害大 |
| 关联 | 廉价地把散落碎片拼成一份画像 | 区隔:分开用户名、设备,剥掉元数据 | 其次 |
| 推断 | 从你的模式推断未发布的事实 | 经营信号:模糊位置、作息、关系线索 | 持续进行 |
要对着你自己的人生来排序,而不是照搬这张表——重点是找出你最薄弱的一环,先在那里动手,而不是把四个维度平均防护。
还有一样不值得过度投入:监管。欧盟《人工智能法案》(EU AI Act)从2026年8月2日起开始适用其大部分条款,但针对高风险系统、要求最严的那些义务,已依据2026年5月的"数字综合法案(Digital Omnibus)“协议,推迟到2027年12月与2028年8月。数据保护监管机构正在认真介入;欧洲数据保护委员会(EDPB)于2024年12月18日通过的第28/2024号意见,阐明了 GDPR 各项原则如何适用于 AI 模型,包括何时可以认定某个模型是匿名的、以及违法训练的模型面临何种风险。这是一条仍在移动、值得跟踪的前沿——却是一样不宜依赖的东西。在法律赶上来之前的那些年里,你的威胁模型必须立得住,而这正是它必须属于你自己的原因。
“在电子时代,隐私是开放社会的必需品。……我们不能指望政府、企业,或其他庞大而面目模糊的组织,会出于善意施舍给我们隐私。” — Eric Hughes,《密码朋克宣言》1993
那句话写的是密码学与电子邮件。如今读来,却像是在描述这个机器对手:工具变了,原则没变。你之所以亲手搭建这个模型,是因为没有人会替你搭。然后,把精力花在能撬动真实暴露的地方——并把隐私支柱的其余部分放在手边,因为这里的每一个维度,都另有一张更深的地图。
结论——哪个维度是你最薄弱的一环?#
AI 时代 OPSEC 的合适强度,是与你的威胁模型相称的那一档——哪个维度是你最薄弱的一环,完全取决于你要防的是谁。
- 如果你是没有特定对手的普通用户: 杠杆最高的动作是永久和合成身份——给自己立一道发布前的停顿,砍掉你那些最易辨识的原始声音与面孔样本。其余的,等你有了理由再说。
- 如果你维护着彼此分离的身份——一位化名创作者、一名活动人士,或任何不能让各场景相连的人:关联是你的第一道防线。把区隔做到极致;一个重复使用的用户名,就能毁掉其余的一切。
- 如果你背负不对称的风险——遭受骚扰的女性、幸存者、需要面对公众的职业人士:把合成身份与推断排在前面,并把带外验证协议当作没得商量的一项。
四个维度之上,那条在"人类对手时代"成立的真理依旧成立——事后再怎么删,都换不来可靠的安全。你能做的,只是为你真正面对的那个对手建模,刻意地做决定,并少发布那些你不愿被机器留下的东西。
常见问题#
什么是 AI 时代的 OPSEC? AI 时代的 OPSEC,是为机器对手重建的运营安全。传统 OPSEC 设想的是一位时间有限的人类调查员;AI 时代的 OPSEC 设想的是一套系统:它大规模关联数据,推断你从未发布的内容,把你发布的东西留存在模型权重里,还能合成你的声音和面孔。落到实处,就是把标准的威胁模型问题——你保护什么、谁想要它、对方能做什么——对着这四种能力重新跑一遍。
AI 真能从"匿名"数据里把我重新识别出来吗? 往往能。靠省略来匿名——发帖时不署名——在推断与关联面前很脆弱,因为模型可以从模式、以及跨多个数据集的连接里把你重新认出来。强不可关联性来自区隔(分开的用户名、设备、网络,加上剥掉的元数据),而不是单纯地不写出你的名字。
退出 AI 训练,到底有没有用? 有一部分用,而且主要是面向未来。在平台尊重的前提下,退出与"请勿训练"信号可以减少未来的采集,但它们够不着已经被吸收进训练好模型的数据,而机器遗忘在大规模场景下仍未解决。把退出当作若干预防手段之一,而不是一个删除按钮。
欧盟《人工智能法案》会作为个人保护我吗? 不会很快,也不能用来替代你自己的威胁模型。法案的大部分条款自2026年8月起适用,但其最严格的高风险义务,已依据2026年5月的数字综合法案协议,推迟到2027年12月与2028年8月。监管是一道缓慢而不均衡的后盾;这篇文章里的那些控制,才是你在此期间手里握着的东西。
| # | 来源 | URL | 存档 |
|---|---|---|---|
| 1 | 皮尤研究中心——“美国人对 AI 的看法:数据说了什么”(2026年3月) | https://www.pewresearch.org/short-reads/2026/03/12/key-findings-about-how-americans-view-artificial-intelligence/ | https://web.archive.org/web/*/https://www.pewresearch.org/short-reads/2026/03/12/key-findings-about-how-americans-view-artificial-intelligence/ |
| 2 | 皮尤研究中心——“美国人如何看待数据隐私”(2023年10月) | https://www.pewresearch.org/internet/2023/10/18/how-americans-view-data-privacy/ | https://web.archive.org/web/*/https://www.pewresearch.org/internet/2023/10/18/how-americans-view-data-privacy/ |
| 3 | 欧盟《人工智能法案》——实施时间表 | https://artificialintelligenceact.eu/implementation-timeline/ | https://web.archive.org/web/*/https://artificialintelligenceact.eu/implementation-timeline/ |
| 4 | EDPB——关于 AI 模型与 GDPR 的第28/2024号意见(2024年12月18日) | https://www.edpb.europa.eu/news/news/2024/edpb-opinion-ai-models-gdpr-principles-support-responsible-ai_en | https://web.archive.org/web/*/https://www.edpb.europa.eu/news/news/2024/edpb-opinion-ai-models-gdpr-principles-support-responsible-ai_en |
| 5 | Carlini 等——“Extracting Training Data from Large Language Models”(USENIX Security 2021) | https://arxiv.org/abs/2012.07805 | https://web.archive.org/web/*/https://arxiv.org/abs/2012.07805 |