メインコンテンツへスキップ

AI の目で、自分の投稿履歴を棚卸しする(2026年)

·411 文字·2 分
Cora Aegis
著者
Cora Aegis
プライバシーは権利であり、目的そのもの。道具はそれを行使する手段にすぎません。
目次
AI-Age OPSEC - この記事は連載の一部です
パート : この記事
短い銀髪に静かな赤い瞳の女性が、散らばった自分の投稿の壁——コメントの断片、タイムスタンプ、地図のピン、小さなカメラのアイコン——に下から照らされ、その断片はただ一つ、輪郭だけのシルエットへと収束していく

資金について:CypherpunkGuide は監視型広告を一切載せない——広告ネットワークも、トラッキングピクセルも、スポンサー記事もない。運営は透明な収益源による:現在は読者からの寄付、将来は購読と編集方針に合致した affiliate。私たちは広告主ではなく、読者に向き合う。以下で触れる監査ツールは、無料で、ソースも公開されている。

私は仮名で書いている。この記事の対になる一本——AI 非匿名化——推論が、あなたの匿名性を解いていく——では、モデルが散らばった投稿をどうやって名前に変えるのか、そしてこれから先どう区画化していくかを示した。本記事が扱うのは、予防では手の届かないもう半分だ。あなたがすでに公開してしまった、何年分もの投稿である。その記録はいま、まさに公の場に置かれていて、攻撃が読むのはまさにその一群だ。正直な問いは「これから何を用心して投稿しようか」ではなく、「これまで自分が言ってきたことは、すべて足し合わせると何になるのか」である。そして、それを知る唯一の方法は、機械と同じやり方でそれを見ることだ。

幸い、それはできる。自分のデータの書き出しは、あなたにしか引き出せない。それを敵の目で読むのは、秘術ではなく身につけられる技術だ。問題は、それを読む最も自然なやり方——AI に貼りつけて「これは私の何を明かしている?」と尋ねること——が、事態を悪化させる可能性の最も高い一手でもある、という点にある。なぜそうなのかは、後で述べる。まずは、自分のタイムラインの内側からは感じ取れないものから始めよう。

モザイクは、自分では気づけない
#

危ないのは、不用意な投稿1件ではなく、その総体だ。再特定は、それ単体では無害なシグナル——通勤路、ある言い回し、タイムスタンプ——を積み重ね、それらが1人の人物のところで重なるまで続けることで成り立つ。これがいわゆる「モザイク効果」で、自分のフィードの内側からはそれを感じ取れない。タイル1枚1枚は、それだけ見れば無害だからだ。 モザイクは昔からある手口だ。2000年、Latanya Sweeney は、アメリカ人のおよそ87%が、たった3つの公開情報——郵便番号、性別、生年月日——だけで一意に特定できることを示した(1990年の国勢調査データに基づく。2006年の再分析では約63%とされたが、いずれにせよ傾向は変わらない)。2006年には New York Times の記者が、「匿名」だった AOL の検索ユーザーを、その検索ログだけから突き止めて名指しした。2008年には、研究者が Netflix の「匿名化された」評価データを、公開されていた IMDb のレビューと突き合わせ、利用者を再特定した。どれも AI は使っていない。使ったのは、データの寄せ集めだ。

AI が変えたのは、そのコストだ。ICLR 2024 で発表された査読済みの研究『Beyond Memorization』で、ETH Zurich の研究者たちは、市販のモデルが、ありふれた Reddit のテキストから属性——居場所、職業、性別、収入——を、8属性平均でおよそ85%の top-1 精度(属性ごとのばらつきは大きい)で、しかも人間の調査者の100分の1ほどのコストで240倍速く推論できることを示した。さらに新しい研究は、これを工業化している。AutoProfiler(Du ほか、ACL 2026)は、4つのエージェントが連携する仕組みで、仮名の投稿履歴を(プラットフォームの API 経由で)引き出し、プロフィールを「ウェブ規模で」自動的に組み立てる。肝心なのは、どれか1件の投稿があなたを晒すという話ではないということだ。いまや機械は、それらすべてをまとめて読み、あなたには決して気づけなかった交点に目を留めるだけの余裕を、手にしている。

X では、漏れるのはたいてい言葉ではない
#

Reddit では、そのモザイクはおもにテキストから組み上がる。だが X では、おもにメタデータからだ。「テキストだけ気をつければいい」という思い込みは、危うい油断である。自分で設定した居場所の欄、投稿の時刻、画像の EXIF(写真に埋め込まれる撮影日時や位置などのメタデータ)、外部リンク、そして誰に返信したか——これらが、あなたが実際に書いた文面よりも多くを物語ることは少なくない。 仮名のアカウントは、文面には用心していても、その周りの付帯情報から漏れてしまう。いちばんわかりやすい例が、投稿時刻の偏りだ。あなたの「匿名」アカウントが勤務時間どおりに動いていれば、いつ投稿したかの分布が、あなたのタイムゾーンと、起きて活動している時間帯を、そっと差し出してしまう。

画像は、思っている以上に厄介で、しかも二段構えだ。たいていのプラットフォームは、公開アップロード時に EXIF の GPS を取り除く。ただし、すべての経路でそうとは限らず(ダイレクトメッセージ、一部の API や予約投稿ツール、チャットの「ファイル」モードでは残ることがある)、古い画像は一度確かめておく価値がある。そして、たとえ GPS タグが消えていても、写真そのものが場所を割り出す手がかりになる。2024年の研究『Image-Based Geolocation Using Large Vision-Language Models』では、視覚言語モデル(画像と言語を扱う AI)が画像の内容だけから写真の撮影地を当てられることが示された——5万枚を使った GeoGuessr 風の対戦で85.37%に勝ち、時には0.3km 以内まで絞り込んだ。メタデータを削ぐのは必要なことだ。だが、それだけで終わりではない。

メタデータの層(おもに X)それがそっと明かすもの書き出しのどこを見るか
自分で設定した「居場所」欄現実の地域を、自分の言葉でprofile.js / プロフィール文
投稿のタイムスタンプタイムゾーンと毎日の生活リズムtweets.jscreated_at
画像の EXIF + 写真の内容正確な場所、端末、EXIF がなくても位置特定tweets_media/ の画像
外部リンクあなたの他のサイトや別の身元投稿内の URL 要素
返信・メンションすでにあなたを知っている人間関係メンション要素

自分の履歴を、敵のように読む
#

監査とは、読む向きを意識して逆転させることだ。昔を懐かしむ本人として読むのをやめ、獲物を追う他人になったつもりで読み始める。書き出した履歴を丸ごと引き出し、項目ごとに「これは恥ずかしいか」ではなく「これは自分が誰かを絞り込む手がかりになるか」と問うていく。 データは、Reddit(設定 → プライバシー → データのコピーを請求)からも、X(設定 → アカウント → アーカイブをダウンロード)からも請求できる。どちらも、オフラインで読める構造化されたファイルとして届く。手に入れたら、以下の項目を順に当たっていく。わかりやすいシグナルだけでなく、弱いシグナルにも目を配りながらだ。像は、その弱いシグナルから組み上がるからである。

役に立つ心得を一つ。それぞれの発見は、単体でどれだけ明かしているように感じるかではなく、リスクにどれだけ上乗せするかで測ること。近所の目印に触れた投稿が28件あるほうが、勤め先を一度だけ名指した投稿1件よりも大きな問題だ。28件は、互いに重なり合うからである。探すべきは、手がかりのまとまりと一貫性だ——同じハンドル、同じ言い回しの癖、同じ朝7時の投稿枠。後の検索と照合の段階が別々のアカウントを結びつけるとき、頼りにするのはまさにこの一貫性だからだ。

項目自分の履歴の中で何を探すかどう和らげるか
居場所通勤、地元のイベント、「〜の近く」、近所の目印、位置情報つきの写真地域レベルまで一般化する/画像の EXIF を削るか避ける/プロフィール欄をぼかす
勤め先・収入役職+チームの規模+技術構成、「採用中」、給与や保有資産のほのめかし際立った組み合わせを落とす/自分のアカウントから採用活動をしない
家族子の年齢や学校、パートナー、毎日の習慣具体は消す/親類は「見つかってよい」と同意していないことを忘れない
生活リズム毎日の決まった時刻、「平日は毎日」、投稿時刻の偏り時刻をばらつかせる/仮名を自分の時計に合わせて動かさない
身元のつながり使い回したハンドル、個人サイトへのリンク、EXIF に残る端末名ハンドルを使い回さない/外部の個人リンクを消す/端末タグを削ぐ

あなたを非匿名化する、プライバシー監査
#

ここに落とし穴がある。しかも、それを指摘する人はほとんどいない。履歴を監査するいちばん分かりやすいやり方は、高性能な AI に貼りつけて、何が読み取れるかを尋ねることだ。だが、点検しようとしているアカウントが本名と切り離して保っている仮名で、しかも尋ねる相手の AI に本名でログインしているとしたら、あなたはこの瞬間、守ろうとしていたつながりの両端を、一つの会社にまとめて手渡したことになる。監査が、そのまま情報漏洩に変わる。 順を追って考えてみよう。いまや、あるクラウド事業者が、あなたの本名アカウントのもとに、「匿名」ペルソナの投稿履歴を丸ごと抱えている。しかも、その二つがどう結びつくかを露骨に尋ねるプロンプトまで添えて、だ。その結びつきは、後になって令状・情報流出・内部者の手を通じて表に出かねない。まさに、あなたが監査して防ごうとしていた事態を、自分の手で作り出してしまうことになる。

これは、クラウド AI が一律に禁物だという意味ではない。リスクには条件がある。点検する相手が本名の公開アカウントなら、そもそも晒されて困る匿名の身元が存在しないので、非匿名化のリスクは当てはまらない。とはいえ、書き出しを丸ごとどこかのクラウドへ送れば、第三者がその中身を自社の規約のもとで処理することに変わりはないので、自分の書き出しに何が入っているかは先に確かめておきたい。本当に危ないのは、匿名のアカウント本名の AI アカウントを組み合わせる、まさにその場合だ。そのときは、分析を、誰の目にも触れない場所で行うこと。

監査する相手が…クラウド AI(本名アカウント)ローカルモデル(オフライン)
本名・公開のアカウント非匿名化リスクなし——それでも書き出しの中身は先に確認問題なし、ただ遅いだけ
本名と切り離した厳密な仮名避ける——本名↔仮名のつながりを作ってしまう推奨——何一つ、あなたの端末から出ていかない

この監査を安全にこなすやり方は、すべてローカルで完結する。オープンソースで、まず手元で動くことを前提にしたツールが、書き出しを解析し、何が漏れているかを項目ごとに報告する。投稿をどこにも送らず、あなたのプロフィールをディスクに書き出すこともない。(まさにこのために、私は一つ作った。リンクは公開時にここへ載せる。)どうしても機微なアカウントでクラウドのモデルを使うしかないなら、本名やクレジットカードに紐づく主流サービスのアカウントではなく、暗号資産で支払えて身元をほとんど明かさずに使えるよう設計されたサービスを、その規約の範囲で選ぶこと。2026年6月時点では、たとえば OpenRouter は USDC で支払える OpenAI 互換 API で、登録はメールかウォレットだけで済む。Venice はプライバシー重視で、アカウント不要のままリクエストごとに暗号資産で支払う経路と OpenAI 互換 API を備え、どちらも本ツールのクラウド側にそのまま使える。ただし、これは真の匿名ではない。ウォレットやメール、通信のメタデータは残りうるし、プロンプトは依然として第三者に届く(OpenRouter のような中継なら、その先のモデル事業者にも届く)。しかもこうしたプライバシーの多くは事業者の自己申告で、第三者監査を経ていない。各サービスの現行規約を確かめること。そして、何一つ送らずに済む道は、結局ローカル実行だけだと忘れないことだ。

見つけたものを、どうするか
#

一括削除に走りたくなる衝動は、抑えること。投稿を1件消しても、あなたを晒したパターンまで消えることはめったになく、そもそも削除は消去ではない。アーカイブ、検索キャッシュ、スクリーンショット、そして他人が持っている控えは、ボタンを押したずっと後まで残り続ける。 より効くのは、影響の大きい項目を一般化して書き換えること——「うちの近所から出る8時07分のフェリー」を「通勤」と言い換える——そして、これから公開するものを変えていくことだ。削除して実際に何が生き延びるのか、その全体像は 削除しても消えない——2026年、SNSの足跡はどこまで残るのか にまとめた。予防の側——像を結ばせる材料を残さないよう、身元を区画化すること——の手引きは AI 非匿名化 にあり、前提そのものを組み直す大きな見取り図は AI時代のOPSEC——脅威モデルを組み立て直す が描いている。

限界については、正直に言っておきたい。自分の書き出しの監査は、閉じた範囲の中での作業だ。見えるのは、あなたが差し出したものだけであって、敵が頼りにする外の世界——データブローカー(個人データを売買する業者)、流出データ、返信の関係網、サービスをまたいで一貫するあなたの文体——は見えない。240人を対象とした2025年の研究(Wang ほか)では、利用者が自分のどの断片が危ういかを言い当てられた精度は、偶然並みをわずかに上回る程度にとどまり、書き換えによって推論を実際に減らせたのは、28%にすぎなかった。だから監査は、「これで安全」というお墨つきではなく、リスクの低減として扱うこと。そして書き換えた後は、もう一度点検すること。リスクが下がったと言える証拠は、結局のところそれしかないからだ。

これが、身の安全に関わる人たち
#

推論への耐性は、多くの人にとっては基本の心得にすぎないが、一部の人にとっては身の安全そのものだ。過去をさかのぼる監査が最も要るのは、敵がすでに探し出そうとしている人たちだ。 嫌がらせ目的の晒し(doxxing=個人情報の暴露)、なりすまし、捏造された画像は、女性に偏って重くのしかかる。そして「過去が今この場で晒される」という同じ危険は、虐待を生き延びた人、敵対的な環境にいる LGBTQ の人、反体制の人、そして記者の情報源——古く忘れ去られた投稿1件が、いま現在のリスクになりうるすべての人——を脅かす。配信者はどう晒されるのか の事例研究が、そのパターンを白日の下にさらしている。もしそれがあなたの脅威モデルなら、監査は気が向いたときの片づけではなく、予定に組み込んで続ける手入れだ。

よくある質問
#

監査するための Reddit と X の投稿履歴は、どうやって手に入れますか?
#

それぞれのプラットフォームから書き出しを請求してください。Reddit では、設定 → プライバシーとセキュリティ → 「データのコピーを請求」を選ぶと、コメントと投稿が CSV ファイルで届きます。X では、設定 → アカウント → 「データのアーカイブをダウンロード」を選ぶと、tweets.jsaccount.jsprofile.js と、tweets_media という画像フォルダの入ったフォルダが届きます。どちらも履歴を丸ごとオフラインで読めるので、これが安全な分析のやり方です。ただ中身を見るためだけに、第三者へ手渡す必要はありません。

ChatGPT など、クラウドの AI に投稿を点検させても安全ですか?
#

それは、どのアカウントを点検するかで決まります。本名や公開のプロフィールなら、晒されて困る匿名の身元がないので、クラウドのモデルでも問題ありません。けれど、点検する相手が本名と切り離して保っている仮名なら、その履歴を本名でログインした AI に送ることは、その事業者のサーバー上で二つを結びつけてしまいます。まさに、あなたが防ごうとしていた非匿名化そのものです。その場合は、オフラインで動くローカルのモデルか、匿名で開設して匿名で支払ったクラウドアカウントを使ってください。

古い投稿は、いっそ削除してしまうべきですか?
#

たいていの場合、丸ごと消すのは得策ではありません。投稿を1件消しても、あなたを晒したパターンまで消えることはめったになく、そもそも削除は消去ではありません。アーカイブ、キャッシュ、スクリーンショットは残りますし、削除した内容もプラットフォーム自身のサーバーには一定期間(たとえば Reddit なら90日ほど)保持され、その間は法的手続きが届きます。より効くのは、リスクの高い項目を一般化するか書き換え(具体的な時刻と場所を、ぼんやりしたものに変える)、これから公開するものを変えていくことです。後で必ずもう一度監査し、その変更で実際に露出が下がったかを確かめてください。

EXIF を写真から削ぎ落とせば、それで済むのではありませんか?
#

EXIF は削いでください。必要なことです。ですが、それで十分というわけではありません。視覚言語モデルは、メタデータが一切なくても、写真に写った内容だけから位置を割り出せます(Liu ほか、2024 は、時に0.3km 以内の精度を報告しています)。店先、街のスカイライン、道路標識、窓からの眺めは、あらゆるタグを取り除いた後でも、その画像の撮影地を突き止める手がかりになります。メタデータだけでなく、写り込んだ背景もまた、写真が明かしてしまうものの一部だと考えてください。

AI は、これが実際どれくらい正確なのですか?
#

真剣に受け止めるべき水準には達していて、しかも誰にでも片っ端から走らせられるほど安価です。査読済みの研究(Staab ほか、ICLR 2024)では、GPT-4 が平文の Reddit テキストから、8つの属性カテゴリ平均でおよそ85%の top-1 精度(属性ごとのばらつきは大きい)を出しました。2026年の preprint(査読前の論文)は、Hacker News(技術者が集まる掲示板)ユーザーの標本のうち、およそ三分の二を本物の LinkedIn プロフィールに、90%の精度で、1人あたりおよそ1〜4ドルで結びつけています。数値は課題によって変わり、完璧でもありません。とはいえ、かつてあなたを守っていた摩擦——人間が何時間もかけて調べる手間——は、もう消えてしまいました。

#出典URLアーカイブ
1Staab ほか——“Beyond Memorization: Violating Privacy via Inference with LLMs”(ICLR 2024)https://arxiv.org/abs/2310.07298https://web.archive.org/web/*/https://arxiv.org/abs/2310.07298
2Du ほか——“Automated Profile Inference with Language Model Agents” / AutoProfiler(ACL 2026 Findings)https://arxiv.org/abs/2505.12402https://web.archive.org/web/*/https://arxiv.org/abs/2505.12402
3Lermen ほか——“Large-scale online deanonymization with LLMs”(arXiv preprint〔査読前〕、2026年)https://arxiv.org/abs/2602.16800https://web.archive.org/web/*/https://arxiv.org/abs/2602.16800
4Liu ほか——“Image-Based Geolocation Using Large Vision-Language Models”(2024)https://arxiv.org/abs/2408.09474https://web.archive.org/web/*/https://arxiv.org/abs/2408.09474
5Wang ほか——“Beyond PII: How Users Attempt to Estimate and Mitigate Implicit LLM Inference”(2025)https://arxiv.org/abs/2509.12152https://web.archive.org/web/*/https://arxiv.org/abs/2509.12152
6Electronic Frontier Foundation——Surveillance Self-Defensehttps://ssd.eff.org/https://web.archive.org/web/*/https://ssd.eff.org/
AI-Age OPSEC - この記事は連載の一部です
パート : この記事

関連記事