Estudio

Demuestran que el ChatGPT basado en visión falla al interpretar las imágenes radiológicas

El modelo respondió correctamente el 81,5 % de las consultas de solo texto y únicamente al 47,8% de las preguntas con imágenes

Radiografía de esclerosis múltiple.
Radiografía de esclerosis múltiple.Dreamstime

El mundo lleva explorando las posibilidades de la inteligencia artificial (IA) desde mediados del siglo XX. En concreto, desde que en 1943 Warren McCulloch y Walter Pitts presentaron su modelo de neuronas artificiales y en 1950 el matemático Alan Turing sentase las bases de esta disciplina con su artículo ‘Computing Machinery and Intelligence’ en el que se preguntaba si podían pensar las máquinas.

Ahora bien, la revolución de la IA, término por cierto acuñado en 1956 por John McCarthy quien desarrolló el primer lenguaje de programación de la IA -LISP- años después, no había estado nunca tan presente como hasta ahora, sobre todo desde que el público tiene a su alcance ChatGPT.

Esta aplicación de IA desarrollada en 2022 por OpenAI está especializada en el diálogo. Tras nuevos modelos, en 2023 se presentó GPT-4, un modelo que a diferencia de los anteriores no solo admite entradas de textos, sino que es capaz de interpretar imágenes. Es decir, los usuarios podemos subir una imagen y pedirle, por ejemplo, que nos ayude a analizar ciertos elementos.

Sin embargo, esta posibilidad no está del todo conseguida, tal y como demuestra un estudio publicado hoy en "Radiology", una revista de la Sociedad Radiológica Norteamericana.

Los investigadores que evaluaron el rendimiento de ChatGPT-4 Vision descubrieron que el modelo tenía un buen desempeño en las preguntas de exámenes de Radiología basadas en texto, pero tenía dificultades para responder con precisión las preguntas relacionadas con imágenes.

“ChatGPT-4 ha demostrado ser prometedor para ayudar a los radiólogos en tareas como simplificar los informes de radiología de cara al paciente e identificar el protocolo adecuado para los exámenes de diagnóstico por imágenes”, afirma en un comunicado el Dr. Chad Klochko, radiólogo musculoesquelético e investigador de IA en Henry Ford Health en Detroit, Michigan. “Con capacidades de procesamiento de imágenes, GPT-4 Vision permite nuevas aplicaciones potenciales en radiología”. Ahora bien, todavía queda un importante margen de mejora, ya que "la aplicabilidad de GPT-4 Vision en campos de información crítica como la radiología es limitada en su estado actual”, asegura.

Para el estudio, el equipo de investigación del Dr. Klochko utilizó preguntas retiradas de los exámenes de formación en radiología diagnóstica del Colegio Americano de Radiología, una serie de pruebas que se utilizan para evaluar el progreso de los residentes de radiología.

Después de excluir las preguntas duplicadas, los investigadores utilizaron 377 preguntas en 13 dominios, incluidas 195 preguntas que solo contenían texto y 182 que contenían una imagen.

GPT-4 Vision respondió correctamente 246 de las 377 preguntas, logrando una puntuación general del 65,3 %. El modelo respondió correctamente el 81,5 % (159) de las 195 consultas de solo texto y únicamente al 47,8 % (87) de las 182 preguntas con imágenes.

“La precisión del 81,5 % en las preguntas basadas únicamente en texto refleja el rendimiento del modelo anterior”, manifiesta. “Esta consistencia en las preguntas basadas en texto puede sugerir que el modelo tiene un grado de comprensión textual en radiología”, añade.

La radiología genitourinaria fue la única subespecialidad en la que GPT-4 Vision tuvo un mejor desempeño en las preguntas con imágenes (67 %, o 10 de 15) que en las preguntas con solo texto (57 %, o 4 de 7). En todas las demás subespecialidades, el modelo tuvo un mejor desempeño en las preguntas con solo texto.

En concreto, ChatGPT-4 Vision tuvo el mejor desempeño en las preguntas basadas en imágenes en las subespecialidades de tórax y genitourinarias, respondiendo correctamente el 69% y el 67% de las preguntas que contenían imágenes, respectivamente.

En cambio, el modelo tuvo el peor desempeño en las preguntas que contenían imágenes en el dominio de la medicina nuclear, respondiendo correctamente solo 2 de 10 preguntas.

Además, aunque el modelo respondió correctamente 183 de 265 preguntas con una indicación básica, se negó a responder 120 preguntas,la mayoría de las cuales contenían una imagen.

"El fenómeno de negarse a responder preguntas era algo que no habíamos visto en nuestra exploración inicial del modelo", destaca el Dr. Klochko.

La instrucción breve arrojó la precisión más baja (62,6%).

En las preguntas basadas en texto, la instrucción basada en cadenas de pensamiento tuvo un mejor desempeño que la instrucción larga en un 6,1 %, la instrucción básica en un 6,8 % y el estilo de instrucción original en un 8,9 %. No hubo evidencia que sugiriera diferencias de desempeño entre dos indicaciones en las preguntas basadas en imágenes.

“Nuestro estudio mostró evidencia de respuestas alucinatorias al interpretar los hallazgos de las imágenes”, dijo el Dr. Klochko. “Notamos una tendencia alarmante en el modelo a proporcionar diagnósticos correctos basados ​​en interpretaciones incorrectas de las imágenes, lo que podría tener implicaciones clínicas importantes”.

Para el Dr. Klochko los hallazgos de su estudio subrayan la necesidad de métodos de evaluación más especializados y rigurosos para evaluar el desempeño de modelos de lenguaje grandes en tareas de radiología.

“Dados los desafíos actuales para interpretar con precisión las imágenes radiológicas clave y la tendencia a las respuestas alucinatorias, la aplicabilidad de GPT-4 Vision en campos de información crítica como la radiología es limitada en su estado actual”, concluye.