Inteligencia Artificial

¿Te operarías con una IA? ChatGPT acaba de pasar el examen de radiología

Pese a lo interesante del avance, conocimiento no es lo mismo que discernimiento y tampoco se parece a razonamiento. Aunque a veces se usen como sinónimos.

La revolución de la inteligencia artificial llega también a las pruebas diagnósticas
Una IA que puede tener el diploma de radiología Dreamstime

Recientemente ChatGPT fue nombrada la aplicación de consumo de rápido más crecimiento en la historia. A ella se suman otras IAs similares en motores de búsqueda populares como Google y Bing. Ya sabemos de todo lo que es capaz este tipo de inteligencia artificial. Y aún así nos sigue sorprendiendo con nuevos logros. ¿El último? Ha pasado el examen de radiología.

ChatGPT es un chatbot de inteligencia artificial que utiliza un modelo de aprendizaje profundo para reconocer patrones y relaciones entre palabras y así generar respuestas similares a las humanas. Pero dado que no hay una fuente de verdad en sus datos de entrenamiento, la herramienta puede generar respuestas que son objetivamente incorrectas. De acuerdo con un reciente estudio publicado en Radiology la última versión de ChatGPT aprobó un examen, un resultado que destaca el potencial de los modelos de lenguaje pero también revela limitaciones que dificultan la confiabilidad.

“El uso de modelos de lenguaje extenso como ChatGPT se está disparando y seguirá aumentando – señala el autor principal del estudio, Rajesh Bhayana –. Nuestra investigación da información sobre el desempeño de ChatGPT en un contexto de radiología, destacando el increíble potencial de los modelos de lenguaje, junto con las limitaciones actuales que lo hacen poco confiable”.

Para evaluar su desempeño el equipo de Bhayana utilizó primero ChatGPT en su versión 3.5, actualmente la versión más utilizada. Se sometió a esta IA a 150 preguntas de opción múltiple diseñadas para coincidir con el estilo, el contenido y la dificultad de los exámenes del Canadian Royal College y la American Board of Radiology. Las preguntas no incluían imágenes y se agruparon por tipo de pregunta para obtener información sobre el rendimiento. Los investigadores encontraron que ChatGPT 3.5 respondió correctamente el 69% de las preguntas (104 de 150), cerca del 70% necesario para aprobar.

Luego probaron con la versión GPT-4, que se lanzó en marzo de 2023 de forma limitada para usuarios pagos, afirmando específicamente tener capacidades de razonamiento avanzadas mejoradas en comparación con GPT-3.5. GPT-4 respondió correctamente el 81 % (121 de 150) de las mismas preguntas. Los hallazgos sugieren que las capacidades avanzadas de razonamiento mejoradas de GPT-4 se traducen en un rendimiento mejorado en un contexto de radiología. También sugieren una mejor comprensión contextual de la terminología específica de la radiología, incluidas las descripciones de imágenes, que es fundamental para permitir futuras aplicaciones posteriores.

“Nuestro estudio demuestra una mejora impresionante en el rendimiento de ChatGPT en radiología durante un período de tiempo corto, lo que destaca el potencial creciente de los modelos de lenguaje en este contexto – añade Bhayana –. Inicialmente nos sorprendieron las respuestas precisas y seguras de ChatGPT a algunas preguntas radiológicas desafiantes, pero luego nos sorprendieron igualmente algunas afirmaciones muy ilógicas e inexactas. Por supuesto, dada la forma en que funcionan estos modelos, las respuestas inexactas no deberían ser particularmente sorprendentes”.

Ambos estudios mostraron que ChatGPT usaba un lenguaje seguro de manera constante, incluso cuando era incorrecto. Esto es particularmente peligroso si solo se utiliza como información, señala Bhayana, especialmente para los novatos que pueden no reconocer las respuestas incorrectas. “Para mí, esta es su mayor limitación – concluye Bhayana– . En la actualidad, ChatGPT se utiliza mejor para generar ideas, ayudar a iniciar el proceso de redacción médica y resumir datos. Si se usa para recuperar información rápidamente, siempre debe verificarse”.

La realidad es que una IA puede adquirir una cantidad enorme de conocimiento académico pero esto de ningún modo separa aplicar ese conocimiento o razonar a partir de él. Estamos ante una enciclopedia que nos responde relacionando todos sus artículos, pero no una que razona. Y a eso hay que sumarle que no sabe ni reconoce que se equivoca o que ignora una respuesta. Y eso también es peligroso.