Inteligencia artificial
Si la IA va a ser tu médico, tenemos un problema: los modelos más potentes fracasan con preguntas médicas alteradas
La fiabilidad de la inteligencia artificial en el área de la medicina responde por el momento mejor a patrones que a cuestiones que requieran de un razonamiento más profundo, tal como apunta el estudio de Suhana Bedi
Resulta complejo imaginar un mundo en el que cuestiones tan personales y vitales como la salud queden en manos exclusivas de modelos guiados por inteligencia artificial. Sin embargo, esa tendencia se encuentra cada vez más extendida y empieza a aparecer en el horizonte, por muchas reservas que pueda haber.
Ese aprendizaje de los grandes modelos de lenguaje podría hacer prescindibles en el futuro a los profesionales de distintas áreas como la medicina, tal como ha apuntado Jad Tarifi, experto en inteligencia artificial que trabajó tiempo atrás para Google. Sin embargo, ese punto puede no estar tan cercano como vaticina Tarifi, en especial si hacemos caso a los últimos estudios publicados en relación a la inteligencia artificial y su aplicación en cuestiones médicas, algo que puede hacer respirar de alivio en algunos casos.
Fiabilidad de la IA médica en entredicho
Y es que, pese a que los modelos más conocidos de la industria hayan sido capaces de superar con buena nota exámenes médicos estandarizados, el estudio publicado por JAMA Network Open bajo el título “Fidelidad del razonamiento médico en modelos lingüísticos amplios” apunta a un desempeño cuestionable de los modelos cuando se debe razonar de manera más profunda en un caso, alejando la respuesta de un mero patrón que sí hayan podido memorizar.
Cuando tales patrones se modifican ligeramente, el desempeño de la inteligencia artificial cae en picado, en ocasiones superando una reducción del 50% en su tasa de acierto, tal como recoge PsyPost. Esto es algo que puede llevar incluso a la duda acerca de las capacidades que empresas como Microsoft están alcanzando con sus herramientas propias de diagnóstico, en especial si no se han hecho pruebas tan exhaustivas como las llevadas a cabo por el estudio que nos ocupa.
La autora del mismo es Suhana Bedi, Licenciada en Ciencias y estudiante de doctorado en la Universidad de Stanford, quien junto Yixing Jiang, Philip Chung, Sanmi Koyejo y Nigam Shah, quiso exponer al debate sobre la implantación de la inteligencia artificial en los hospitales a una nueva prueba en la que se enfrentara a pruebas complejas en las que los patrones no fuesen suficiente:
“Planteamos la hipótesis de que esto se debía a que estas tareas implicaban escenarios de razonamiento complejos que no podían resolverse únicamente mediante la comparación de patrones, precisamente el tipo de pensamiento clínico que importa en la práctica real”
La investigación mostró que modelos como GPT-4o y Claude 3.5 Sonnet presentan una fragilidad preocupante: ante un leve cambio en la redacción, su precisión se desploma, lo que evidencia una comprensión superficial. Un resultado que fue fruto de enfrentar a esos dos y a otros cuatro modelos (Deepseek-R1, o3-mini, Gemini 2.0 Flash y Llama 3.3) a preguntas originales en primer lugar y modificadas posteriormente, para calibrar su rendimiento. ¿El resultado? Una vez que desaparece el patrón, desaparece la eficacia de la IA.
Esto quiere decir que los resultados obtenidos por el alumno artificial en exámenes médicos no garantizan una comprensión fiable por su parte, al menos no hasta el punto de mostrar una flexibilidad y capacidad de razonamiento más allá de un procedimiento estándar.
Su fortaleza parece descansar más en patrones aprendidos que en el razonamiento, lo que puede derivar en errores graves si se enfrentan a formulaciones clínicas reales. Aunque estos sistemas ofrecen potencial en educación o apoyo preliminar, su uso en la práctica clínica debe llevarse a cabo extremando la precaución y cotejando cada detalle obtenido, por lo que es fundamental mantener la supervisión humana y validar sus respuestas antes de convertirlas en decisiones de salud, tal como se desprende del estudio.