
Tecnología
La IA puede desenmascarar cuentas anónimas con una precisión de hasta el 90%
Un estudio advierte de que los modelos de lenguaje ya superan a los métodos clásicos de desanonimización y elevan el riesgo para la privacidad en redes sociales

Las aplicaciones de inteligencia artificial están cambiando muchas cosas y una de ellas es la privacidad en Internet. Según una reciente investigación, los agentes de IA disponibles comercialmente pueden servir para identificar a los usuarios reales que se encuentran detrás de cuentas anónimas en redes sociales y otras plataformas de Internet.
La conclusión se basa en pruebas realizadas que correlacionan a individuos concretos con cuentas o publicaciones en más de una plataforma de redes sociales. La tasa de éxito fue muy superior a la de los trabajos clásicos de desanonimización, que dependen de humanos para reunir conjuntos de datos estructurados aptos para el emparejamiento algorítmico o del trabajo manual de investigadores especializados.
El recall (es decir, cuántos usuarios fueron desanonimizados con éxito) alcanzó hasta el 68 %. La precisión (la proporción de aciertos al identificar correctamente al usuario) llegó hasta el 90 %. Los porcentajes aumentaban conforme más publicaciones y más datos de los usuarios se tenían para cruzar.
'Nuestros hallazgos tienen implicaciones importantes para la privacidad en línea. El usuario medio de Internet ha operado durante mucho tiempo bajo un modelo implícito de amenaza en el que asumía que un pseudónimo proporcionaba una protección adecuada porque la desanonimización dirigida requeriría un esfuerzo considerable. Los LLM invalidan esa suposición', señalan los investigadores.
La capacidad de identificar de forma barata y rápida a las personas detrás de esas cuentas anónimas supone que es más fácil exponerlas al doxxing, al acoso y a la elaboración de perfiles de marketing detallados que rastrean dónde viven, a qué se dedican y otra información personal.
Los investigadores recopilaron varios conjuntos de datos de sitios públicos de redes sociales para probar las técnicas, preservando la privacidad de quienes publicaban. Por ejemplo, reuniendo publicaciones de Hacker News de cuentas que mostraban un perfil asociado en LinkedIn y que después se anonimizaban para ejecutar sobre ellas los LLM o modelos de lenguaje grandes, que es el nombre más técnico de la tecnología detrás de chatbots como ChatGPT o Gemini.
'Lo que descubrimos es que estos agentes de IA pueden hacer algo que antes era muy difícil: partiendo de texto libre, como la transcripción anonimizada de una entrevista, pueden llegar hasta la identidad completa de una persona. Es una capacidad bastante nueva; los enfoques anteriores de reidentificación, por lo general, requerían datos estructurados y dos conjuntos de datos con un esquema similar que pudieran vincularse entre sí', ha señalado Simon Lermen, coautor del artículo.
A diferencia de esos métodos más antiguos para eliminar el anonimato, Lermen dijo que los agentes de IA pueden navegar por la web e interactuar con ella de muchas de las mismas formas que los humanos. Pueden usar un razonamiento simulado para emparejar a posibles individuos.
'La precisión de los ataques clásicos cae muy deprisa, lo que explica su bajo recall. En cambio, la precisión de los ataques basados en LLM se degrada de forma más gradual a medida que el atacante realiza más intentos. El ataque clásico casi fracasa por completo incluso con niveles de precisión moderadamente bajos. En cambio, incluso el ataque con LLM más simple (Search) logra un recall no trivial con baja precisión, y ampliarlo con pasos de Reason y Calibrate duplica el Recall @99% Precision', señala el estudio.
Los resultados muestran que los LLM, aunque siguen siendo propensos a falsos positivos y otras limitaciones, están superando rápidamente a métodos más tradicionales y costosos en recursos para identificar usuarios online.
Los investigadores proponen medidas de mitigación como que las plataformas impongan límites de velocidad al acceso por API a los datos de usuario, detecten el scraping automatizado y restrinjan las exportaciones masivas de datos. Los proveedores de LLM también podrían vigilar el uso indebido de sus modelos en ataques de desanonimización e incorporar barreras que hagan que los modelos rechacen esas solicitudes.
También advierten que los gobiernos podrían usar estas técnicas para desenmascarar a personas críticas, las empresas podrían elaborar perfiles de clientes para publicidad 'hipersegmentada' y los ciberdelincuentes podrían construir perfiles de objetivos a gran escala para lanzar fraudes de ingeniería social altamente personalizados.
'Los avances recientes en las capacidades de los LLM han dejado claro que existe una necesidad urgente de replantear diversos aspectos de la seguridad informática ante las capacidades ofensivas cibernéticas impulsadas por LLM. Nuestro trabajo muestra que probablemente ocurra lo mismo con la privacidad', advierten los investigadores.
✕
Accede a tu cuenta para comentar

Pulso en la derecha

