Ir al contenido

Audita tu propio historial como lo haría una IA (2026)

·3291 palabras·16 mins
Cora Aegis
Autor
Cora Aegis
La privacidad es el derecho; las herramientas son cómo lo ejercemos.
Tabla de contenido
AI-Age OPSEC - Este artículo es parte de una serie.
Parte : Este artículo
Mujer de cabello plateado corto y ojos rojos serenos, iluminada desde abajo por un muro con sus propias publicaciones dispersas —fragmentos de comentarios, marcas de tiempo, una chincheta de mapa y un pequeño icono de cámara— que convergen en una única silueta perfilada

Una nota sobre la financiación: CypherpunkGuide no lleva publicidad de vigilancia. Nada de redes publicitarias, píxeles de rastreo ni contenido patrocinado. Nos sostienen fuentes transparentes: hoy, las donaciones de los lectores; más adelante, una suscripción y afiliados alineados con nuestra línea editorial. Respondemos ante quienes nos leen, no ante los anunciantes. La herramienta de auditoría que se menciona más abajo es libre y de código abierto.

Escribo bajo seudónimo, y el artículo hermano de este —Desanonimización con IA: cómo la inferencia deshace tu anonimato— explica cómo un modelo convierte publicaciones dispersas en un nombre y cómo compartimentar de aquí en adelante. Este otro trata de la mitad a la que la prevención no llega: los años de publicaciones que ya hiciste. Ese archivo está en público ahora mismo, y es exactamente el corpus que lee el ataque. La pregunta honesta no es «qué publicaré con cuidado a partir de ahora», sino «qué suma todo lo que ya he dicho». Y la única forma de saberlo es mirarlo como lo mira la máquina.

La buena noticia es que puedes. Tu exportación solo la puedes descargar tú, y leerla con ojos de adversario es una destreza, no un secreto. La mala noticia es que la forma más natural de hacer esa lectura —pegarla en una IA y preguntar «¿qué revela esto sobre mí?»— es justo lo que más probabilidades tiene de empeorar las cosas. Ya llegaremos a por qué. Empecemos por aquello que no se ve desde dentro de tu propio perfil.

El mosaico es lo que no llegas a ver
#

El peligro no es una publicación descuidada; es el conjunto. La reidentificación funciona apilando muchas señales inofensivas por separado —un trayecto, una palabra de jerga, una marca de tiempo— hasta que se cruzan en una sola persona. Es el «efecto mosaico», y no se aprecia desde dentro de tu propio feed, porque cada tesela parece inofensiva por sí sola. El efecto mosaico no es nada nuevo. En el año 2000, Latanya Sweeney demostró que cerca del 87 % de los estadounidenses podía identificarse de forma única con apenas tres datos públicos: código postal, sexo y fecha de nacimiento (sobre el censo de 1990; un reanálisis de 2006 lo situó más cerca del 63 %, y el patrón se sostiene en ambos casos). En 2006, un periodista del New York Times puso nombre a una usuaria «anónima» de AOL solo con sus registros de búsqueda; en 2008, unos investigadores reidentificaron a usuarios de Netflix cruzando las valoraciones «anonimizadas» del servicio con reseñas públicas de IMDb. Ninguno usó IA. Usaron agregación.

Lo que la IA cambió es el precio. En un estudio revisado por pares presentado en ICLR 2024, Beyond Memorization, investigadores de ETH Zurich mostraron que modelos comerciales al alcance de cualquiera infieren atributos —ubicación, ocupación, sexo, ingresos— a partir de texto corriente de Reddit con un acierto en torno al 85 % en su primera conjetura, promediado entre ocho atributos (con amplia variación entre ellos), a un coste unas 100 veces menor y 240 veces más rápido que un investigador humano. El trabajo más reciente lo lleva a escala industrial: AutoProfiler (Du et al., ACL 2026) encadena cuatro agentes que extraen un historial seudónimo de publicaciones —a través de las API de la plataforma— y montan un perfil de forma automática, «a escala web». La cuestión no es que una sola publicación te delate. Es que ahora una máquina puede permitirse leerlas todas a la vez y reparar en el cruce que tú nunca llegaste a ver.

En X, la fuga rara vez son las palabras
#

En Reddit el mosaico es sobre todo texto. En X es sobre todo metadatos, y un modelo mental centrado solo en el texto es un consuelo peligroso. El campo de ubicación que tú mismo pusiste, tus horas de publicación, los datos EXIF de tus imágenes (la información que la cámara incrusta en cada foto), tus enlaces salientes y a quién respondes suelen decir más que lo que de verdad escribiste. Una cuenta seudónima puede cuidar sus frases y aun así filtrar por el andamiaje que las rodea. La concentración de horarios es el ejemplo más claro: si tu cuenta «anónima» se mueve en horario de oficina, el histograma de cuándo publicas delata sin ruido tu zona horaria y las horas en que estás despierto.

Las imágenes son peores de lo que la gente cree, y en dos capas. La mayoría de las plataformas borra el GPS de los EXIF al subir una imagen en público, pero no por todas las vías: los mensajes directos, algunas API, ciertas herramientas de programación de publicaciones y los modos de «archivo» de los chats pueden conservarlo, así que conviene revisar el material más antiguo. Y aun cuando la etiqueta GPS ya no está, la imagen misma geolocaliza: un estudio de 2024, Image-Based Geolocation Using Large Vision-Language Models, halló que los modelos de visión y lenguaje sitúan fotos solo por su contenido visual —ganando el 85,37 % de los duelos al estilo GeoGuessr sobre 50.000 imágenes, a veces con un margen de 0,3 km—. Quitar los metadatos es necesario, pero no basta.

Capa de metadatos (sobre todo en X)Qué revela en silencioDónde mirar en tu exportación
Campo de «ubicación» que tú pusisteUna región real, en tus propias palabrasprofile.js / tu biografía
Marcas de tiempo de las publicacionesZona horaria y rutina diariacreated_at en tweets.js
EXIF de la imagen + contenido de la fotoLugar exacto; dispositivo; geolocalización incluso sin EXIFimágenes en tweets_media/
Enlaces salientesTus otros sitios e identidadesentidades de URL en las publicaciones
Respuestas y mencionesEl grafo social que ya te conoceentidades de mención

Lee tu propio historial como un adversario
#

La auditoría es un cambio de mirada deliberado: deja de leer tu historial como quien recuerda viejos tiempos y empieza a leerlo como un desconocido que va a la caza. Descarga tu exportación completa y recórrela categoría por categoría, preguntándote no «¿esto es embarazoso?», sino «¿esto acota quién soy?». Puedes pedir tus datos a Reddit (Ajustes → Privacidad → solicitar una copia) y a X (Ajustes → Tu cuenta → descargar un archivo). Ambos te llegan como un archivo estructurado que puedes leer sin conexión. Luego ve repasando las categorías de más abajo y ten en cuenta también las señales débiles, no solo las evidentes, porque el mosaico se construye precisamente con las débiles.

Una disciplina útil: juzga cada hallazgo por su aporte al riesgo, no por lo revelador que parezca aislado. Veintiocho publicaciones que mencionan cada una un punto de referencia del barrio son un problema mayor que una sola que nombre a tu empleador una vez, porque las veintiocho se cruzan. Busca patrones repetidos y constancia —el mismo identificador, los mismos giros de frase, la misma franja de las siete de la mañana—, porque la constancia es justo lo que aprovecha una fase posterior de búsqueda y cotejo para dar con la coincidencia que te delata.

CategoríaQué buscar en tu propio historialCómo suavizarlo
UbicaciónTrayectos, eventos locales, «cerca de…», puntos de referencia del barrio, fotos geoetiquetadasGeneraliza a una región; elimina u omite el EXIF de las imágenes; deja más impreciso el campo de la biografía
Empleo / ingresosPuesto + tamaño del equipo + tecnología que usas, «estamos contratando», pistas sobre tu sueldo o tu patrimonioRenuncia a la combinación que te hace identificable; no busques personal desde tu cuenta
FamiliaEdades y colegios de los hijos, pareja, rutinasQuita los detalles; recuerda que tus familiares no han consentido en ser localizables
HorariosHoras fijas cada día, «todos los días laborables», concentración de horariosVaría las horas; nunca uses un alias siguiendo tu horario real
Enlaces de identidadIdentificador reutilizado, enlaces a una web personal, modelo de dispositivo en el EXIFNo reutilices identificadores; quita los enlaces personales salientes; elimina las etiquetas del dispositivo

La auditoría de privacidad que te desanonimiza
#

Aquí está la trampa, y casi nadie la menciona. La forma obvia de auditar tu historial es pegarlo en una IA potente y preguntarle qué revela. Si la cuenta que revisas es un seudónimo que mantienes separado de tu nombre legal —y has iniciado sesión en esa IA con tu identidad real—, acabas de entregarle a una misma empresa las dos mitades del vínculo que tratabas de proteger. La auditoría se convierte en la brecha. Piénsalo bien. Un proveedor en la nube tiene ahora, bajo tu cuenta con nombre real, el historial completo de publicaciones de tu identidad «anónima», acompañado de una consulta que le pide explícitamente que conecte las dos. Esa asociación puede salir a la luz más adelante por una citación judicial, una filtración o un infiltrado: justo el fallo que querías evitar con la auditoría, solo que esta vez lo has provocado tú.

Esto no significa que la IA en la nube esté prohibida. El riesgo depende del caso. Si auditas tu cuenta pública, la que lleva tu nombre real, no hay ninguna identidad anónima que dejar al descubierto, de modo que el riesgo de desanonimización ni siquiera se plantea. Aun así, mandar una exportación completa a cualquier servicio en la nube significa que un tercero procesa su contenido según sus propias condiciones, así que revisa primero qué incluye la tuya. El peligro real está, en concreto, en juntar una cuenta anónima con una cuenta de IA a tu nombre real. En ese caso, mantén el análisis donde nadie más pueda verlo.

Si auditas…IA en la nube (cuenta con nombre real)Modelo local (sin conexión)
Tu cuenta pública / con nombre realSin riesgo de desanonimización, pero revisa antes el contenido de la exportaciónBien, solo más lento
Un seudónimo estricto que mantienes aparteEvítalo: crea el enlace real↔aliasRecomendado: nada sale de tu máquina

La versión limpia de esta auditoría se hace en tu propio equipo: una herramienta de código abierto y de funcionamiento local, que analiza tu exportación e indica, por categoría, qué filtra, sin enviar tus publicaciones a ninguna parte y sin dejar en el disco ningún perfil tuyo. (He creado una precisamente para esto; pondré aquí el enlace cuando la publique.) Y si no te queda más remedio que usar un modelo en la nube con una cuenta sensible, elige —dentro de sus propios términos— un servicio pensado para el pago con criptomonedas y el registro con identidad mínima, en lugar de la cuenta de un servicio masivo atada a tu nombre real y tu tarjeta. A fecha de junio de 2026, por ejemplo, OpenRouter ofrece una API compatible con OpenAI que acepta USDC y solo pide un correo o una billetera, y Venice tiene un enfoque centrado en la privacidad, con una vía de pago en cripto sin cuenta y una API compatible con OpenAI; ambos encajan directamente en la opción de nube de esta herramienta. Nada de esto es anonimato real: pueden quedar una billetera, un correo o metadatos de red, tus prompts siguen llegando a un tercero (con un enrutador como OpenRouter, también al proveedor del modelo que hay detrás), y estas promesas de privacidad son en su mayoría declaraciones del propio proveedor, no auditadas de forma independiente. Revisa los términos vigentes de cada servicio y recuerda que ejecutarlo en local es la única vía que no envía absolutamente nada.

Qué hacer con lo que encuentres
#

Resiste el impulso de borrarlo todo de golpe. Eliminar una publicación rara vez elimina el patrón que te delató, y borrar no es lo mismo que hacer desaparecer: los archivos, las cachés de los buscadores, las capturas de pantalla y las copias que otros han guardado siguen ahí mucho después de pulsar el botón. Lo más eficaz es generalizar y reescribir los elementos que más suben el riesgo —convertir «el ferri de las 8:07 desde mi barrio» en «mi trayecto»— y, a partir de ahí, cambiar lo que publicas. Si quieres el panorama completo de qué sobrevive de verdad a un borrado, lee Tu huella digital no se borra; para el lado de la prevención —compartimentar identidades para que el mosaico no tenga nada con qué enlazar—, el manual está en Desanonimización con IA, y la reconstrucción más amplia de las premisas se traza en OPSEC en la era de la IA.

Conviene ser honestos sobre los límites. Auditar tu propia exportación es un ejercicio de conjunto cerrado: solo abarca lo que tú aportaste, no el mundo abierto del que se sirve un adversario —intermediarios de datos (los llamados data brokers), filtraciones, el grafo de respuestas o tu forma de escribir, que te delata de una plataforma a otra—. Un estudio de 2025 con 240 personas (Wang et al.) halló que los usuarios juzgaban cuáles de sus propios fragmentos eran arriesgados apenas algo mejor que el azar, y que sus reescrituras lograron reducir la inferencia solo en el 28 % de los casos. Así que toma la auditoría como una reducción de riesgo, no como un certificado de salud, y vuelve a revisar después de editar, porque bajar la puntuación es la única prueba de que un cambio funcionó.

A quién le importa más
#

La resistencia a la inferencia es higiene de datos para la mayoría y seguridad física para algunos. La auditoría retroactiva importa sobre todo a quienes un adversario ya tiene un motivo para buscar. El doxxing (la exposición de tu identidad real) por motivos de acoso, la suplantación de identidad y las imágenes manipuladas caen de forma desproporcionada sobre las mujeres, y esa misma exposición retroactiva amenaza a supervivientes de maltrato, a personas LGBTQ en entornos hostiles, a disidentes y a las fuentes de los periodistas: cualquiera para quien una publicación vieja y olvidada suponga un riesgo aquí y ahora. Los casos que recoge Cómo se hace doxxing a los streamers dejan el patrón a la vista; si ese es tu modelo de amenazas, la auditoría no es una limpieza opcional, sino un mantenimiento que conviene programar.

Preguntas frecuentes
#

¿Cómo consigo mi historial de Reddit y de X para auditarlo?
#

Pide una exportación a cada plataforma. En Reddit: Ajustes → Privacidad y seguridad → «Solicitar una copia de tus datos», que devuelve archivos CSV con tus comentarios y publicaciones. En X: Ajustes → Tu cuenta → «Descargar un archivo de tus datos», que devuelve una carpeta con tweets.js, account.js, profile.js y una carpeta de imágenes tweets_media. Las dos te permiten leer tu historial completo sin conexión, que es la forma segura de analizarlo: no se lo entregas a un tercero solo para echarle un vistazo.

¿Es seguro pedirle a ChatGPT u otra IA en la nube que revise mis publicaciones?
#

Depende por completo de la cuenta. Si auditas tu perfil público, el de tu nombre real, no hay ninguna identidad anónima que exponer y un modelo en la nube te sirve sin problema. Si auditas un seudónimo que mantienes separado de tu nombre legal, enviar su historial a una IA en la que has iniciado sesión con tu identidad real vincula a ambas en los servidores de ese proveedor: justo la desanonimización que querías evitar. Para ese caso, usa un modelo local, sin conexión, o una cuenta en la nube abierta y pagada de forma anónima.

¿No basta con borrar mis publicaciones antiguas?
#

En general, no del todo. Eliminar una sola publicación rara vez borra el patrón que te expuso, y borrar no es lo mismo que hacer desaparecer: los archivos, las cachés y las capturas siguen ahí, y las plataformas conservan el contenido borrado en sus propios servidores durante un tiempo (Reddit, por ejemplo, en torno a 90 días) que un proceso legal todavía puede alcanzar. Lo más eficaz es generalizar o reescribir los elementos de mayor riesgo (una hora y un lugar concretos pasan a ser algo vago) y cambiar lo que publicas de ahora en adelante. Después, vuelve a auditar para confirmar que el cambio rebajó de verdad tu exposición.

¿No me basta con quitar el EXIF de mis fotos y listo?
#

Quita el EXIF —es necesario—, pero no basta. Los modelos de visión y lenguaje pueden geolocalizar una foto solo por su contenido visual, sin ningún metadato (Liu et al., 2024, halló aciertos con un margen de 0,3 km en algunos casos). El escaparate de una tienda, el perfil de la ciudad al fondo, un cartel del transporte público o la vista desde una ventana pueden situar una imagen aun después de borrar todas las etiquetas. Lo que sale de fondo, y no solo los metadatos, también forma parte de lo que una foto revela.

¿Cómo de buena es la IA en esto, de verdad?
#

Lo bastante buena como para tomársela en serio, y lo bastante barata como para aplicarla a cualquiera. Un trabajo revisado por pares (Staab et al., ICLR 2024) situó a GPT-4 en torno al 85 % de aciertos en su primera conjetura, promediando entre ocho categorías de atributos (con amplia variación de unas a otras), a partir de texto corriente de Reddit; un preprint de 2026 (aún no revisado por pares) vinculó cerca de dos tercios de una muestra de usuarios de Hacker News (el foro de la comunidad tecnológica) con su perfil real de LinkedIn, con una precisión del 90 % y por entre uno y cuatro dólares por persona. Las cifras varían según la tarea y no son perfectas, pero la barrera que antes te protegía —tener que dedicarle horas de trabajo humano— ya no existe.

#FuenteURLCopia archivada
1Staab et al. — “Beyond Memorization: Violating Privacy via Inference with LLMs” (ICLR 2024)https://arxiv.org/abs/2310.07298https://web.archive.org/web/*/https://arxiv.org/abs/2310.07298
2Du et al. — “Automated Profile Inference with Language Model Agents” / AutoProfiler (ACL 2026 Findings)https://arxiv.org/abs/2505.12402https://web.archive.org/web/*/https://arxiv.org/abs/2505.12402
3Lermen et al. — “Large-scale online deanonymization with LLMs” (preprint de arXiv, 2026)https://arxiv.org/abs/2602.16800https://web.archive.org/web/*/https://arxiv.org/abs/2602.16800
4Liu et al. — “Image-Based Geolocation Using Large Vision-Language Models” (2024)https://arxiv.org/abs/2408.09474https://web.archive.org/web/*/https://arxiv.org/abs/2408.09474
5Wang et al. — “Beyond PII: How Users Attempt to Estimate and Mitigate Implicit LLM Inference” (2025)https://arxiv.org/abs/2509.12152https://web.archive.org/web/*/https://arxiv.org/abs/2509.12152
6Electronic Frontier Foundation — Surveillance Self-Defensehttps://ssd.eff.org/https://web.archive.org/web/*/https://ssd.eff.org/
AI-Age OPSEC - Este artículo es parte de una serie.
Parte : Este artículo

Relacionados