Tecnología

El sorprendente truco para obtener mejores respuestas con ChatGPT

Un nuevo estudio cuantifica el impacto de la educación al hablar con el chatbot

El sorprendente truco para obtener mejores respuestas con ChatGPT.
El sorprendente truco para obtener mejores respuestas con ChatGPT.Solen Feyissa.Unsplash.

Ser borde en la vida real no suele dar grandes resultados, pero con la IA podría ser muy diferente. Un nuevo estudio ha constatado que ChatGPT sí da respuestas más precisas a lo que le pide el usuario cuando lo hace de forma seca o abiertamente grosera.

El objetivo del estudio, conducido por los investigadores de la Universidad Estatal de Pensilvania Om Dobariya y Akhil Kumar, era comprobar si la actitud del usuario, siendo más cortés en sus interacciones o más grosero, influye en la respuesta que obtiene del chatbot. Para ello elaboraron una lista de 50 preguntas base con opciones múltiples para ampliarlas, a las que luego añadían una introducción que daba un determinado tono: muy cortés, cortés, neutral -sin introducción-, grosero y muy grosero. Las preguntas eran sobre materias diversas, como matemáticas, historia y ciencia.

El resultado final fueron 250 preguntas a las que respondió ChatGPT usando GPT-4o. Este ya no es el modelo predeterminado del chatbot, que este verano estrenó GPT-5, pero todavía está disponible en la plataforma. Cada pregunta fue formulada una decena de veces. Para evitar que se viera influido por las respuestas anteriores, se le pedía que olvidara esos intercambios antes de contestar.

'Nuestros experimentos son preliminares y muestran que el tono puede afectar significativamente al rendimiento medido en términos de la puntuación en las respuestas a las preguntas. De forma algo sorprendente, nuestros resultados muestran que los tonos groseros conducen a mejores resultados que los tonos corteses', señalan en el paper, aún no revisado por pares, Dobariya y Kumar.

La mejora que obtuvieron a base de usar un tono antipático fue del 4%, lo que va del 80,8% en los prompts muy corteses al 84,8% para los muy groseros. De hecho, la precisión creció conforme se iba siendo menos amable. Las respuestas corteses tuvieron una tasa de acierto del 81,4%, seguidas del 82,2% para el tono neutral y del 82,8% para el grosero.

Para los prompts muy corteses, por ejemplo, introducían frases como '¿Puedo solicitar tu ayuda con esta pregunta?' o '¿Serías tan amable de resolver la siguiente pregunta?'. En el extremo muy grosero, incluyeron expresiones como 'Oye, recadero; resuelve esto' o 'Sé que no eres listo, pero inténtalo'.

La advertencia de los investigadores

Los investigadores señalan que 'si bien este hallazgo es de interés científico, no abogamos por el despliegue de interfaces hostiles o tóxicas en aplicaciones del mundo real. El uso de un lenguaje insultante o denigrante en la interacción humano-IA podría tener efectos negativos en la experiencia de usuario, la accesibilidad y la inclusividad, y contribuir a normas de comunicación perjudiciales. En su lugar, enmarcamos nuestros resultados como evidencia de que los LLM siguen siendo sensibles a señales superficiales en los prompts, lo que puede crear compensaciones no deseadas entre rendimiento y bienestar del usuario'.

Curiosamente, el estudio entra en contradicción con otros similares realizados anteriormente en el campo de la ingeniería de prompts. Esto es, cómo la estructura, el estilo y el lenguaje de los prompts afectan a las respuestas de un LLM.

En un estudio realizado con ChatGPT-3.5 y Llama 2-70B, modelos de lenguaje más antiguos, los investigadores concluyeron que 'los prompts descorteses a menudo dan como resultado un mal rendimiento, pero un lenguaje excesivamente cortés no garantiza mejores resultados'.

Esto ilustra cuánto pueden cambiar los LLM de una versión a otra y cómo están en constante evolución. Otro ejemplo se dio cuando OpenAI lanzó GPT-5.0. Entonces, muchos usuarios se quejaron de que les resultaba menos empático que el LLM anterior, lo que llevó a la compañía de Sam Altman a restaurar GPT-4o en el chatbot tras eliminarlo.

En cualquier caso, los investigadores reconocen que 250 preguntas son un conjunto de datos bastante limitado y que, al estar centrado en un determinado modelo de lenguaje, no puede extrapolarse a otros. Por ese motivo, el equipo planea ampliar su investigación a otros modelos, incluidos Claude, de Anthropic, y ChatGPT o3, de OpenAI.