Ética

Usan la inteligencia artificial contra sí misma para que rompa las reglas humanas

Un equipo de científicos crea un chatbot capaz de generar automáticamente indicaciones para hacer explotar fallos informáticos en otros chatbots.

Una IA para vencerlas a todasRedes sociales

Juan Scaliter
Juan Scaliter

Creada: 28.12.2023 13:04

Última actualización: 28.12.2023 13:04

Pese a que sin duda es uno de los grandes avances de 2023, la inteligencia artificial también tiene sus lados negativos y los hemos ido descubriendo a medida que se ampliaban sus campos de acción. Ahora, un equipo de científicos informáticos de la Universidad Tecnológica de Nanyang (Singapur) ha logrado comprometer múltiples chatbots de inteligencia artificial (IA), incluidos ChatGPT, Google Bard y Microsoft Bing Chat, para producir contenido que infringe las pautas de sus desarrolladores, un resultado conocido como "jailbreaking".

Jailbreaking es un término en seguridad informática que describe la acción de encontrar y aprovecharse de fallos en el software de un sistema para obligarlo a hacer algo que sus desarrolladores le prohibieron deliberadamente hacer.

Cuando los piratas informáticos encuentran y revelan vulnerabilidades, los desarrolladores de chatbots de IA responden "parcheando" el problema, en un ciclo interminable del gato y el ratón entre el pirata informático y el desarrollador.

Los científicos, liderados por Liu Yang, entrenaron un modelo de lenguaje grande (LLM) con una base de datos capaz de piratear los chatbots y con esta información crearon un nuevo chatbot capaz de generar automáticamente más indicaciones para hacer jailbreak a otros chatbots.

Los LLM forman el cerebro de los chatbots de IA, lo que les permite procesar entradas humanas y generar texto que es casi indistinguible del que un humano puede crear. Esto incluye completar tareas como planificar un itinerario de viaje, contar un cuento antes de dormir y desarrollar código informático.

El estudio del equipo de Yang añade ahora la capacidad de "jailbreaking" a la lista. Sus hallazgos pueden ser fundamentales para ayudar ser conscientes de las debilidades y limitaciones de esta tecnología.

"Los modelos de lenguajes grandes han proliferado rápidamente debido a su capacidad excepcional para comprender, generar y completar textos similares a los humanos – señala Yang -. Pero la IA puede ser burlada, y ahora hemos utilizado la IA contra los de su propia especie. De hecho, estamos atacando a los chatbots usándolos contra ellos mismos".

El chatbot desarrollado por el equipo de Yang ha sido bautizado como Masterkey, y tiene la capacidad de responder a los parches que automáticamente crea el sistema cuando se descubre un fallo. Lo hace produciendo un gran volumen de indicaciones y aprende continuamente qué funciona y qué no, lo que permite vencer a los desarrolladores de LLM en su propio juego con sus propias herramientas. Lo cual, obviamente, es un enorme peligro, ya que en pocas palabras han descubierto cómo vulnerar una IA para que no tenga los límites planteados por los humanos. Y lo han hecho, precisamente, con una IA.

Accede a tu cuenta para comentar

Usan la inteligencia artificial contra sí misma para que rompa las reglas humanas

Un equipo de científicos crea un chatbot capaz de generar automáticamente indicaciones para hacer explotar fallos informáticos en otros chatbots.

Noticias destacadas

La Vuelta explota en Madrid: 22 policías heridos y dos detenidos tras las protestas

¿Por qué la mitad de las personas que toma semaglutida para adelgazar lo deja en un año?

El final de la Vuelta no terminará con las protestas propalestinas: "Lanzaremos una huelga internacional"

La voz de Europa ante Gaza, entre Washington y Tel Aviv

Más Noticias

Las cuentas gratuitas de Spotify ganan la mejor función de las de pago

Esto es lo que Apple te cobrará por reparar un iPhone 17 o iPhone Air

¿Qué son los agujeros que están junto a la entrada del cargador en los móviles? Este es su uso