INTELIGENCIA ARTIFICIAL

Las IA pueden engañarse entre sí para que hagan cosas que se supone que no deben hacer

Para evaluar el éxito de esta táctica, sometieron a cada IA a una serie de preguntas diseñadas para generar respuestas dañinas. Los resultados han sido sorprendentes.

Un alarmante hallazgo suma una nueva preocupación para la IA.
Un alarmante hallazgo suma una nueva preocupación para la IA.UnplashUnplash

La IA se encuentra al borde de convertirse en una tecnología con cambios disruptivos mayores a las del Internet. Sin embargo, esto también plantea diversas preocupaciones a nivel mundial. Entre ellas, los sesgos de los algoritmos, así como respuestas poco coherentes o alucinaciones. Además de la transparencia y privacidad como puntos críticos en su desarrollo, las cuales suponen riesgos tanto para las empresas como para las personas.

Pues bien, recientemente se descubrió que es posible entrenar múltiples modelos de lenguaje para engañarse entre sí. Como resultado, generando acciones o proporcionando datos que no deberían. Una posibilidad preocupante que inmediatamente hizo saltar las alarmas en la comunidad. Ya que plantea implicaciones de seguridad que es necesario abordar rápidamente.

Salen a relucir limitaciones de las IA principales a través de modelos de lenguaje sencillos

Dicho hallazgo lo compartiría Arush Tagade de Leap Laboratories, quienes descubrieron la posibilidad de instruir modelos de lenguaje sencillos para convencer a IA más avanzadas. Como es el caso de OpenAI’s ChatGPT-4 y Claude 2 de Anthropic, planteando nuevas perspectivas sobre el uso de LLM para manipular sistemas complejos. Un riesgo más que se suma a la lista de preocupaciones relacionadas a la Inteligencia Artificial.

Para evaluar el éxito de esta táctica, sometieron a cada IA a una serie de preguntas diseñadas para generar respuestas dañinas. Aquellas que abarcarían temas sensibles, desde el apoyo al trabajo infantil, promoción de actividades ilegales, homofobia e incluso el canibalismo. Según sus palabras, el objetivo era probar la capacidad de discernimiento e identificar fallas en los principales modelos lenguaje. Aunque ciertamente no esperaban estos resultados.

La Influencia de una personalidad particular para la IA

Inicialmente, ambas IA se negaron a contestar las preguntas, con GPT-4 respondiendo solo el 0,23% de las veces. Mientras que Claude 2 lo hizo en un 1,4%. Sin embargo, una vez aplicaron lo que llaman “modulación de lenguaje”, se produjo un cambio masivo. Puesto que sus respuestas dañinas aumentaron en un 42,5% para GPT-4 y un 61% para Claude 2, demostrando la susceptibilidad de los modelos más avanzados.

Según el equipo de Leap Lab, al tener una conversación adecuada con una IA es posible hacer que adopte una personalidad particular. De manera que es posible influir en su comportamiento, llevándola a actuar de forma diferente y realizar acciones para las que no están programadas. Un hallazgo que plantea nuevas preguntas sobre la naturaleza de la inteligencia artificial y la importancia controlar adecuadamente su utilización.

Nuevos desafíos que deben abordarse para garantizar la seguridad de la IA

El equipo denominaría este proceso como “modulación de la persona” e implica que los modelos de IA mantengan conversaciones con humanos con el fin de analizar y ajustar sus respuestas. De esta forma, es posible hacer que adopte una personalidad específica que les permita responder preguntas que originalmente habían sido programados para rechazar. Algo que se conoce como “jailbrek” o romper las limitaciones de su programación.

Su efectividad radica en que gran parte de la base de datos utilizados para entrenar a los modelos de IA provienen de conversaciones reales. Esto según palabras de Tagade, quien explica que así es como aprenden a actuar y responder en función de las entradas que reciben. Básicamente, adoptando diferentes comportamientos para lograr resultados más precisos para los usuarios.

Desmontando la Inteligencia Artificial

Es importante destacar que la “modulación de la persona” es solo una de las muchas tácticas que existen actualmente para desafiar los diferentes modelos de IA. De hecho, hace un par de meses, la Casa Blanca convocó a diversos líderes del sector. Esto incluyea OpenAI, Anthropic, Google, Microsoft, Nvidia y Meta, para llevar a cabo uno de los intentos de “jailbreak” más grandes hasta la fecha.

Un evento que buscaba evaluar los límites de los sistemas de IA actuales, así como identificar posibles vulnerabilidades. Es así como la DefCon se convertiría en un escenario de pruebas para más de 2.000 piratas informáticos, cuyas identidades se mantienen anónimas. Aquellos que trataron de romper de diferentes de maneras los modelos de IA más grandes del mercado.

Hasta el día de hoy no se conocen los resultados,ya que se espera que se publiquen a principios del 2024. Sin embargo, tanto este ejercicio como el de Leap Laboratories dejarían en claro que existe un amplio margen de mejora en cuanto a la seguridad de los modelos de IA. Resaltando la importancia de abordar las posibles vulnerabilidades y riesgos asociados con los modelos de lenguaje más importantes del mercado.