Inteligencia Artificial

Entrenan a una IA solo con datos de la Dark Web para combartir los ciberdelitos

De acuerdo con los responsables tiene intenciones nobles: tratar de arrojar luz sobre nuevas formas de combatir el ciberdelito.

Detenidas 150 personas por tráfico de drogas en la “dark web” en varios países
Detenidas 150 personas por tráfico de drogas en la “dark web” en varios paíseslarazon

Los sistemas de inteligencia artificial más utilizados del momento (ChatGPT es un ejemplo, pero también Bard) se basan en modelos de lenguaje grande (LLM), un algoritmo capaz de reconocer, resumir, traducir, predecir y generar textos, imágenes o voces usando el conocimiento de conjuntos de datos masivos. Básicamente utilizan internet como fuente de alimento para su comportamiento. El problema surge cuando una IA tiene como “dieta” lo peor de internet: la Dark Web.

¿Por qué es lo peor? Vamos por partes. En cierto sentido, internet está dividido en Clearnet, Deep web y Dark web. La primera es toda web a la que podemos acceder mediante un navegador. Ocupa alrededor de un 10% de la la red. Luego está la Deep web. También son enlaces legales, como los que aparecen en tu correo electrónico, en la dirección en la que ves contenido audiovisual como Netflix o la que abres cuando te descargas una archivo que te han enviado a través de, por ejemplo, WeTransfer. Siguen siendo direcciones en internet pero solo son accesibles para quienes tienen la llave o contraseña. Esto ocupa un 90% del contenido online aproximadamente.

Y finalmente está la Dark Web, que ocuparía únicamente el 0,1%. Es una parte de internet que también está oculta, solo que intencionalmente y únicamente se puede acceder a ella a través de buscadores especiales. Allí se encuentra lo más oscuro de internet: venta de armas, droga… todo lo ilegal tiene su sitio aquí. ¿Qué pasaría entonces, si un modelo de IA se entrenara obteniendo información de este último sector de internet? La información que obtendría para hacer sus deducciones sería, casi toda, ilegal. Pues eso es lo que ha hecho un equipo de científicos de Corea del Sur hizo creando un modelo de IA denominado DarkBERT. Si ya otras IAs provocan pesadillas, los autores del estudio señalan que DarkBERT tiene intenciones nobles: tratar de arrojar luz sobre nuevas formas de combatir el ciberdelito.

El equipo, liderado por Seungwon Shin, afirma que su nuevo modelo resultó mucho mejor para dar sentido a la web oscura que otros modelos que fueron entrenados para completar tareas similares, incluido ROBERTa, diseñada por Facebook en 2019 para "predecir secciones de texto intencionalmente ocultas”.

"Los resultados de nuestra evaluación muestran que el modelo de clasificación basado en DarkBERT supera al de los modelos de lenguaje previamente entrenados conocidos", señalan en el artículo los autores. El equipo de Shin sugiere que DarkBERT podría usarse para una variedad de tareas relacionadas con la ciberseguridad, como detectar sitios que venden ransomware o filtran datos confidenciales. También podría usarse para rastrear los innumerables foros de la web oscura que se actualizan diariamente y vigilarlos en busca de cualquier intercambio de información ilícita. Aunque el objetivo pueda ser positivo, entrenar una IA en lo más oscuro de la web para que se encargue de vigilarla resulta como mínimo, contradictorio: lo que aprenderá allí muy fácilmente le puede enseñar a mentir, engañar y robar.