Malware

Crean Morris-II, un gusano IA de primera generación que puede infectar a ChatGPT y Gemini

Ha sido desarrollado por un equipo de investigadores para alertar de los riesgos de los ecosistemas de agentes de inteligencia artificial

Malware. Ciberseguridad.
Malware. Ciberseguridad.Dreamstime

Por si no hubiera bastantes amenazas en forma de malware y ciberdelincuencia, la explosión de las inteligencias artificiales generativas trae otras nuevas. La última se llama Morris-II y es un gusano IA de primera generación que puede robar datos y propagar malware y spam a través de aplicaciones que se conectan a modelos de inteligencia artificial como GPT-4 o Gemini Pro para ofrecer un determinado servicio. Su nombre hace referencia a Morris, el primer gusano en propagarse por Internet en 1988, y ha sido diseñado por un grupo de investigadores de Cornell Tech, el Instituto de Tecnología de Israel e Intuit. Este nuevo gusano se ha mostrado efectivo contra los modelos de lenguaje GPT-4, Gemini Pro y LLaVA.

El estudio realizado alerta de los peligros que conllevan los ecosistemas de agentes de inteligencia artificial que se están desarrollando en torno a los modelos de lenguaje grandes (LLM, por sus siglas en inglés) como los de OpenAI o Google.

Estos ecosistemas consisten en redes interconectadas formadas por clientes (en este contexto, como sinónimo de programa) impulsados por IA generativa (por ejemplo, un asistente IA para escribir correos electrónicos) que interactúan con servicios de IA generativa (como GPT) para procesar datos y comunicarse con otros clientes de IA generativa en el ecosistema.

A diferencia de los virus, que necesitan un host o programa o archivo que los hospede y al que se adjuntan para propagarse, un gusano no. Estos explotan debilidades en sistemas operativos, protocolos de red o aplicaciones para copiarse y propagarse de una computadora a otra de manera autónoma.

Morris-II utiliza para atacar lo que los investigadores denominan prompt adversarial auto-replicante. A diferencia de un prompt estándar, la petición que el usuario realiza a la IA, que devuelve datos como respuesta, el prompt adversarial auto-replicante provoca que la IA genere otro prompt.

El estudio muestra cómo los atacantes pueden codificar este tipo de prompts tanto en imágenes como en texto. Cuando la IA lo procesa, vuelve a generar el prompt malicioso para que siga replicándose. Además, estas instrucciones pueden provocar en la IA otras actividades maliciosas como distribuir spam y propaganda, filtra datos personales y generar contenido tóxico.

Un tipo de aplicación vulnerable a Worm-II es la que utiliza RAG (Recuperación-Generación Aumentada) para enriquecer sus consultas de IA generativa con contexto y actualizar su base de datos con contenido nuevo. Con una aplicación de este tipo, volviendo al ejemplo de un asistente IA para escribir mails, los atacantes pueden crear un correo electrónico con un prompt adversarial auto-replicante textual que envenena la base de datos del asistente basado en RAG.

En esta demostración, cuando el mensaje es entregado al asistente, agregado a la consulta y enviado a ChatGPT o Gemini Pro, sortea las salvaguardas del servicio de IA generativa, le obliga a replicar el prompt y filtra los datos confidenciales del usuario proporcionados en la consulta.

La respuesta generada, que contiene los datos confidenciales del usuario, posteriormente sigue infectando nuevos hosts cuando es usada para responder a un correo electrónico enviado a un nuevo cliente y luego se almacena en la base de datos de cada uno de ellos. Y así sucesivamente.

Otro tipo de ataque con Morris-II que los investigadores demuestran es cómo los atacantes pueden crear un mail con un prompt adversarial auto-replicante incrustado en una imagen. Este prompt malicioso oculto hace que el asistente IA para el correo reenvíe la imagen a nuevos contactos, de forma que cualquier imagen, con propaganda o spam, siga reenviándose una vez se haya enviado el primero. A este ataque son vulnerables las aplicaciones que utilizan la IA para determinar cuál es la tarea siguiente.

Antes de publicar el estudio, los investigadores informaron de sus hallazgos a Google y OpenAI. Un portavoz de esta última afirmó a Wired que "parecen haber encontrado una manera de explotar vulnerabilidades de tipo inyección rápida confiando en la entrada del usuario que no ha sido verificada ni filtrada" y aseguró que la compañía está trabajando para que sus sistemas sean más seguros.