Ética

Usan la inteligencia artificial contra sí misma para que rompa las reglas humanas

Un equipo de científicos crea un chatbot capaz de generar automáticamente indicaciones para hacer explotar fallos informáticos en otros chatbots.

Inteligencia Artificial
Una IA para vencerlas a todasRedes sociales

Pese a que sin duda es uno de los grandes avances de 2023, la inteligencia artificial también tiene sus lados negativos y los hemos ido descubriendo a medida que se ampliaban sus campos de acción. Ahora, un equipo de científicos informáticos de la Universidad Tecnológica de Nanyang (Singapur) ha logrado comprometer múltiples chatbots de inteligencia artificial (IA), incluidos ChatGPT, Google Bard y Microsoft Bing Chat, para producir contenido que infringe las pautas de sus desarrolladores, un resultado conocido como "jailbreaking".

Jailbreaking es un término en seguridad informática que describe la acción de encontrar y aprovecharse de fallos en el software de un sistema para obligarlo a hacer algo que sus desarrolladores le prohibieron deliberadamente hacer.

Cuando los piratas informáticos encuentran y revelan vulnerabilidades, los desarrolladores de chatbots de IA responden "parcheando" el problema, en un ciclo interminable del gato y el ratón entre el pirata informático y el desarrollador.

Los científicos, liderados por Liu Yang, entrenaron un modelo de lenguaje grande (LLM) con una base de datos capaz de piratear los chatbots y con esta información crearon un nuevo chatbot capaz de generar automáticamente más indicaciones para hacer jailbreak a otros chatbots.

Los LLM forman el cerebro de los chatbots de IA, lo que les permite procesar entradas humanas y generar texto que es casi indistinguible del que un humano puede crear. Esto incluye completar tareas como planificar un itinerario de viaje, contar un cuento antes de dormir y desarrollar código informático.

El estudio del equipo de Yang añade ahora la capacidad de "jailbreaking" a la lista. Sus hallazgos pueden ser fundamentales para ayudar ser conscientes de las debilidades y limitaciones de esta tecnología.

"Los modelos de lenguajes grandes han proliferado rápidamente debido a su capacidad excepcional para comprender, generar y completar textos similares a los humanos – señala Yang -. Pero la IA puede ser burlada, y ahora hemos utilizado la IA contra los de su propia especie. De hecho, estamos atacando a los chatbots usándolos contra ellos mismos".

El chatbot desarrollado por el equipo de Yang ha sido bautizado como Masterkey, y tiene la capacidad de responder a los parches que automáticamente crea el sistema cuando se descubre un fallo. Lo hace produciendo un gran volumen de indicaciones y aprende continuamente qué funciona y qué no, lo que permite vencer a los desarrolladores de LLM en su propio juego con sus propias herramientas. Lo cual, obviamente, es un enorme peligro, ya que en pocas palabras han descubierto cómo vulnerar una IA para que no tenga los límites planteados por los humanos. Y lo han hecho, precisamente, con una IA.