

ChatGPT
OpenAI reconoce que los navegadores impulsados por inteligencia artificial, como su propio ChatGPT Atlas, se enfrentan una vulnerabilidad de seguridad fundamental que los podría dejar en una posición comprometida en el caso de ciberataques.
El riesgo reside en los llamados ataques de "inyección de prompts", una técnica donde hackers ocultan instrucciones maliciosas dentro de contenido aparentemente normal, como un correo electrónico o una página web, para secuestrar el comportamiento del agente de IA.
La compañía admitió en una publicación de su blog que este problema, comparable a la ingeniería social que engaña a los humanos, "es poco probable que alguna vez se resuelva por completo".
La inyección de prompts explota una limitación central de los modelos de lenguaje actuales: su incapacidad para distinguir de forma fiable entre las instrucciones legítimas del usuario y los comandos maliciosos incrustados en el contenido que procesan. Un atacante podría, por ejemplo, enviar un correo electrónico con un prompt oculto que ordene al agente reenviar documentos confidenciales a una dirección controlada por el hacker, todo mientras el usuario cree que el asistente solo está resumiendo su bandeja de entrada.
La amenaza se agrava por la naturaleza omnipresente y autónoma de estos agentes, tienen acceso a datos sensibles (como correos electrónicos o credenciales bancarias) y pueden realizar acciones en nombre del usuario, como enviar mensajes o completar transacciones.
Frente a este desafío, OpenAI apuesta por su principal herramienta; un "atacante automatizado" basado en un modelo de lenguaje (LLM), entrenado con aprendizaje por refuerzo para buscar constantemente nuevas formas de explotar la inyección de prompts.
Este sistema simula ataques complejos que se desarrollan a lo largo de docenas de pasos, como colocar un correo malicioso en una bandeja de entrada para que, días después, el agente lo lea y envíe una carta de renuncia en lugar del mensaje de "fuera de la oficina" que el usuario solicitó. Al descubrir estas cadenas de ataque internamente, OpenAI afirma poder ·parchear" las vulnerabilidades antes de que sean explotadas en el mundo real.
OpenAI no está solo en esta batalla, el Centro Nacional de Ciberseguridad (NCSC) del Reino Unido coincide con la empresa al decir que estos ataques "pueden no llegar a mitigarse nunca totalmente", la agencia desaconseja compararlo con vulnerabilidades como la inyección SQL, que encontró soluciones técnicas más definidas, debido a la naturaleza misma de cómo los LLMs procesan la información.
Mientras la industria busca soluciones a largo plazo, instituciones como la propia OpenAI ofrecen recomendaciones clave para los usuarios, como limitar el acceso del agente a sitios que contengan información sensible, revisar minuciosamente las acciones que el asistente solicita confirmar (como enviar un email o un pago) y darle instrucciones lo más específicas posibles, en lugar de órdenes genéricas que un atacante pueda redirigir.