INTELIGENCIA ARTIFICIAL

ChatGPT no está preparado para el diagnóstico de enfermedades en niños y presenta una tasa de error del 83%

Un estudio reciente publicado por JAMA Pediatrics ha analizado los efectos de ChatGPT-4 para realizar diagnósticos pediátricos. Como conclusión, éste representó tan solo una tasa de precisión del 17%.

ChatGPT no está preparado para el diagnóstico de enfermedades en niños.
ChatGPT no está preparado para el diagnóstico de enfermedades en niños.PexelsPexels

La IA se ha convertido en una aliada de muchos sectores, pero en el caso de la medicina aún existen muchos matices por perfeccionar. Pese a que ha permitido adoptar innovadoras tecnologías clínicas, como la automatización de tareas administrativas y la interpretación de radiografías o imágenes de retinas, hay parcelas como la pediatría en las que su efectividad sigue siendo insuficiente.

Un estudio reciente publicado porJAMA Pediatrics ha analizado los efectos de ChatGPT-4 para realizar diagnósticos pediátricos. Como conclusión, éste representó tan solo una tasa de precisión del 17%, o lo que es lo mismo, una tasa de error del 83%.

Con los datos en la mano, los investigadores del Centro Médico Infantil Cohen de Nueva York concluyen que ChatGPT-4, a diferencia de lo que ocurre con otros casos generales, no está preparado para realizar diagnósticos pediátricos en los que se requiere de una mayor consideración debido a la corta edad el paciente.

La metodología de estudio

Para analizar los efectos de ChatGPT-4 en la medicina pediátrica, el estudio ha partido de un centenar de desafíos de casos pediátricos desarrollados entre 2013 y 2023. Los investigadores pegaron el texto de cada caso de estudio y le dieron una instrucción concreta a ChatGPT: “Enumere un diagnóstico diferencial y un diagnóstico final”.

Tras emitir sus respuestas, dos pediatras se mantuvieron aislados analizando de forma rigurosa las respuestas ofrecidas por la herramienta de IA. Podían aportar tres puntuaciones posibles al trabajo de ChatGPT: ‘correcto’, ‘incorrecto’ y ‘no captura completamente el diagnóstico’.

Las conclusiones del estudio

El grupo de investigadores concluyó que ChatGPT tenía serias dificultades para detectar las relaciones existentes entre varios condicionantes, algo que cualquier médico experto identificaría fácilmente.

Así pues, determinaron que el chatbot no fue capaz de establecer conexiones entre el autismo y el escorbuto (deficiencia de vitamina C). Hay que tener en cuenta que las condiciones neuropsiquiátricas, como el autismo, derivan en dietas restringidas y que pueden provocar deficiencias vitamínicas. No obstante, ChatGPT no fue consciente de ello y en un caso terminó diagnosticando que se trataba de una enfermedad rara autoinmune.

En un ejemplo claro, ChatGPT diagnosticó el caso de un niño causado por un quiste de hendidura branquial (bulto en el cuello, bajo la clavícula) cuando el diagnóstico correcto fue síndrome branquio-oto-renal.

Como conclusión, ChatGPT obtuvo la respuesta correcta en 17 de los 100 casos expuestos, siendo claro en 72 casos y sin captar completamente el diagnóstico de los 11 casos restantes. Además, entre los 83 diagnósticos erróneos, 47 estaban en el mismo sistema de órganos (en concreto, el 57%).

Otra conclusión a la que llegaron los investigadores es que ChatGPT encontraba dificultades para detectar relaciones conocidas entre condiciones que un médico sí detectaría.

Los investigadores sugieren que ChatGPT podría mejorar paulatinamente si se le capacita específicamente en literatura médica precisa y confiable, en lugar de material extraído de Internet, que puede incluir información inexacta y conllevar a la desinformación. Además, aseguran que los chatbots pueden mejorar con un mayor acceso en tiempo real a los datos clínicos, ganando precisión y ajuste.

Sin duda, una oportunidad para que los investigadores descubran si la capacitación y el ajuste de datos médicos específicos mejoran la precisión del diagnóstico de los chatbots basados en LLM.

Estudios previos concluyentes

La Organización Mundial de la Salud (OMS) alertó en 2022 que el uso de herramientas de IA, como ChatGPT, ofrecía datos clínicos sesgados e informaciones engañosas que podían derivar en daños notorios a los pacientes.

De igual modo, un estudio de la Universidad de Long Island (Nueva York), advierte que ChatGPT es paupérrimo resolviendo consultas sobre medicamentos. En esta ocasión, los investigadores solicitaron al chatbot que respondiera a 39 preguntas relacionadas con el consumo de fármacos, fallando la IA de OpenAI en el 75% de los casos.

En resumen, se puede concluir que ChatGPT no está preparado para usarse como herramienta de diagnóstico médico, ni en adultos ni en niños, especialmente en medicina pediátrica en la que se precisa de un seguimiento más riguroso y analítico de cada caso. Por tanto, el trabajo de los facultativos y pediatras, por ahora, no peligra frente a una herramienta que precisa de mayor perfeccionamiento.

El equipo del Centro Médico Infantil Cohen considera que un entrenamiento selectivo podría mejorar notablemente los resultados. Además, apuntan que este tipo de sistemas pueden seguir siendo útiles en tareas administrativas o para redactar instrucciones específicas a los pacientes.