Estudio: El 95% de las pruebas de modelos de IA médica no reflejan su eficacia en el mundo real

Según los científicos, este enfoque crea una ilusión de eficacia y una falsa sensación de que la IA está preparada para la práctica médica. Los autores enfatizan que los datos clínicos reales son mucho más difíciles de analizar: contienen jerga profesional, registros incompletos y diferencias significativas entre instituciones médicas. Como resultado, los algoritmos que demuestran un alto rendimiento en pruebas sintéticas a menudo resultan menos precisos en la práctica clínica real.
Además, la mayoría de las evaluaciones se basan en métricas de precisión automatizadas (BLEU, ROUGE, BERTScore y otras), desarrolladas para la traducción automática y el procesamiento de textos, pero poco adecuadas para contextos médicos. La concordancia entre las evaluaciones automatizadas y las humanas es mínima: los modelos que demuestran una alta precisión según métricas formales suelen producir respuestas incorrectas o incompletas en la práctica.
Otro problema es que ni siquiera el uso de datos de historiales médicos reales garantiza una evaluación precisa del rendimiento del modelo. Muchas pruebas, como MedNLI, se crean con historiales médicos reales, pero durante su preparación, los datos suelen simplificarse y se pierden detalles importantes. Como resultado, el algoritmo puede funcionar bien no porque realmente "entienda" el texto clínico, sino porque adivina las respuestas basándose en las características del conjunto de datos.
Además, el formato de evaluación más común (exámenes de opción múltiple) no refleja la práctica médica, donde las decisiones deben tomarse con datos incompletos y contradictorios. En situaciones reales, los modelos lingüísticos tienen un rendimiento significativamente peor, como lo confirman las investigaciones. Por ejemplo, en 2024, científicos de Alemania, el Reino Unido y Estados Unidos probaron la precisión diagnóstica de los sistemas de IA con datos de 2400 pacientes con cuatro enfermedades abdominales comunes y descubrieron que la precisión de los modelos era de tan solo el 13-68 %, mientras que los médicos identificaron las mismas patologías en el 84-86 % de los casos. Los algoritmos aún no son capaces de reproducir el razonamiento clínico y los procesos de toma de decisiones típicos de los especialistas.
Los investigadores proponen adoptar nuevos estándares para la evaluación de la IA médica: uno que involucre a los profesionales clínicos, analice las interacciones reales entre médicos y modelos lingüísticos, y evalúe el impacto de los algoritmos en la calidad del diagnóstico, la velocidad del flujo de trabajo y la carga cognitiva del personal. Destacan que, en los próximos años, los sistemas de IA se utilizarán no como herramientas independientes, sino como tecnologías de asistencia para las tareas profesionales rutinarias. Por lo tanto, la calidad de su evaluación debe considerar no solo la precisión de las respuestas, sino también su impacto real en la práctica médica.
Según los autores, solo un sistema de verificación integral, transparente y sensible al contexto clínico permitirá determinar objetivamente hasta qué punto la IA puede mejorar la eficiencia de la atención médica y reducir los riesgos para los pacientes.
Anteriormente, investigadores de la Universidad de Washington y la Universidad de Michigan, junto con colegas de China, propusieron incorporar en los algoritmos no solo datos de pacientes, sino también rastros digitales de las interacciones de los médicos con los historiales médicos electrónicos. Este enfoque permitirá que los modelos consideren las características reales del razonamiento clínico. La integración de estos datos en un sistema de alerta temprana para el deterioro de las condiciones redujo la mortalidad hospitalaria en un 35,6 %. Por lo tanto, considerar el contexto real, como defienden los autores del artículo sobre la "ilusión de efectividad", se está convirtiendo en un área clave para el desarrollo de la IA médica.
vademec