Modelos médicos de IA se basan en ‘atajos’ que podrían conducir a diagnósticos equivocados de la COVID-19

Por el equipo editorial de LabMedica en español
Actualizado el 29 Jun 2021

Imagen: Los modelos de IA médica confían en ‘atajos’ que podrían conducir a un diagnóstico erróneo de la COVID-19 (Fotografía cortesía del Centro Clínico de los Institutos Nacionales de Salud)

Los investigadores han descubierto que los modelos de inteligencia artificial médica (IA) se basan en ‘atajos’ que podrían conducir a un diagnóstico erróneo de la COVID-19 y otras enfermedades.

Investigadores de la Facultad de Ciencias e Ingeniería Informática Paul G. Allen de la Universidad de Washington (Seattle, WA, EUA), descubrieron que los modelos de IA, al igual que los humanos, tienden a buscar atajos. En el caso de la detección de enfermedades asistida por IA, tales atajos podrían dar lugar a errores de diagnóstico si se implementan en entornos clínicos. La IA promete ser una herramienta poderosa para mejorar la velocidad y exactitud de la toma de decisiones médicas para mejorar los resultados de los pacientes. Desde el diagnóstico de enfermedades hasta la personalización del tratamiento y la predicción de las complicaciones de la cirugía, la IA podría convertirse en una parte integral de la atención del paciente en el futuro, como lo son hoy las pruebas de diagnóstico por imágenes y de laboratorio.

Sin embargo, cuando los investigadores examinaron varios modelos presentados recientemente como herramientas potenciales para detectar con precisión la COVID-19 a partir de una radiografía de tórax (rayos X), encontraron que, en lugar de aprender una patología médica genuina, estos modelos se basan en el aprendizaje de atajos para dibujar imágenes falsas, asociaciones entre factores médicamente irrelevantes y el estado de la enfermedad. En este caso, los modelos ignoraron los indicadores clínicamente significativos a favor de características como los marcadores de texto o la posición del paciente que eran específicas de cada conjunto de datos para predecir si un individuo tenía COVID-19. Según los investigadores, el aprendizaje de atajos es menos sólido que la patología médica genuina y, por lo general, significa que el modelo no se generalizará bien fuera del entorno original. Combine esa falta de robustez con la opacidad típica de la toma de decisiones de la IA y una herramienta de este tipo podría pasar de ser un posible salvavidas para convertirse en un peligro.

La falta de transparencia es uno de los factores que llevó a los investigadores a centrarse en técnicas de IA explicables para la medicina y la ciencia. Se considera que la mayoría de la IA es como una “caja negra”: el modelo se entrena en conjuntos de datos masivos y arroja predicciones sin que nadie sepa realmente con precisión cómo fue que el modelo obtuvo un resultado determinado. Con una IA explicable, los investigadores y los profesionales pueden comprender, en detalle, cómo varias entradas y sus pesos contribuyeron al reporte hecho por el modelo. El equipo decidió utilizar estas mismas técnicas para evaluar la confiabilidad de los modelos que habían sido promocionados recientemente por lo que parecía ser su capacidad para identificar con exactitud los casos de COVID-19 a partir de una radiografía de tórax.

A pesar de una serie de artículos publicados que anuncian los resultados, los investigadores sospecharon que es posible que algo más suceda dentro de la caja negra que llevó a las predicciones de los modelos. Específicamente, razonaron que tales modelos serían propensos a una condición conocida como confusión del peor de los casos, debido a la escasez de datos de entrenamiento disponibles para una enfermedad tan nueva. Tal escenario aumentó la probabilidad de que los modelos se basen en atajos en lugar de aprender la patología subyacente de la enfermedad a partir de los datos de entrenamiento.

El equipo entrenó múltiples redes neuronales convolucionales profundas en imágenes de radiografía de un conjunto de datos que replicaba el enfoque utilizado en los artículos publicados. Probaron el rendimiento de cada modelo en un conjunto interno de imágenes de ese conjunto de datos inicial que se había retenido de los datos de entrenamiento y en un segundo conjunto de datos externo destinado a representar nuevos sistemas hospitalarios. Descubrieron que, si bien los modelos mantuvieron su alto rendimiento cuando se probaron en imágenes del conjunto de datos interno, su precisión se redujo a la mitad en el segundo conjunto externo, lo que los investigadores denominaron una brecha de generalización y citaron una fuerte evidencia de que los factores de confusión fueron responsables del éxito predictivo de los modelos en el conjunto de datos inicial. Luego, el equipo aplicó técnicas de inteligencia artificial explicables, incluidas las redes generativas adversarias (GAN) y los mapas de prominencia, para identificar qué características de la imagen eran más importantes para determinar las predicciones de los modelos.

Cuando los investigadores entrenaron los modelos en el segundo conjunto de datos, que contenía imágenes extraídas de una sola región y, por lo tanto, se presumió que era menos propenso a generar confusión, resultó no ser el caso; incluso esos modelos mostraron una caída correspondiente en el desempeño cuando se probaron con datos externos. Estos resultados anulan la sabiduría convencional de que la confusión plantea un problema menor cuando los conjuntos de datos se derivan de fuentes similares, y revelan hasta qué punto los llamados sistemas de IA médica de alto rendimiento podrían explotar atajos indeseables en lugar de las señales deseadas. A pesar de las preocupaciones planteadas por sus hallazgos, los investigadores creen que es poco probable que los modelos que estudiaron se hayan implementado ampliamente en el entorno clínico. Si bien hay evidencia de que al menos uno de los modelos defectuosos, COVID-Net, se implementó en varios hospitales, no está claro si se utilizó con fines clínicos o únicamente para la investigación. Según el equipo, los investigadores que buscan aplicar la IA a la detección de enfermedades deberán renovar su enfoque antes de que dichos modelos se puedan usar para tomar decisiones de tratamiento reales para los pacientes.

“Un modelo que se basa en atajos a menudo solo funcionará en el hospital en el que se desarrolló, por lo que cuando se lleva el sistema a un nuevo hospital, falla, y esa falla puede dirigir a los médicos hacia un diagnóstico y un tratamiento incorrectos”, explicó el estudiante de posgrado y coautor principal, Alex DeGrave. “Un médico generalmente esperaría que un hallazgo de COVID-19 en una radiografía se basara en patrones específicos en la imagen que reflejan los procesos de la enfermedad. Pero en lugar de depender de esos patrones, un sistema que utilice el aprendizaje de atajos podría, por ejemplo, juzgar que alguien es mayor y, por lo tanto, inferir que es más probable que tenga la enfermedad porque es más común en pacientes mayores. El atajo no es incorrecto per se, pero la asociación es inesperada y no transparente. Y eso podría llevar a un diagnóstico inadecuado”.

“Nuestros hallazgos apuntan a la importancia de aplicar técnicas de inteligencia artificial explicables para auditar rigurosamente los sistemas de inteligencia artificial médica”, dijo el coautor principal Joseph Janizek. “Si miras un puñado de rayos X, el sistema de IA puede parecer que se comporta bien. Los problemas solo se aclaran una vez que miras muchas imágenes. Hasta que tengamos métodos para auditar estos sistemas de manera más eficiente utilizando un tamaño de muestra mayor, una aplicación más sistemática de IA explicable podría ayudar a los investigadores a evitar algunos de los errores que identificamos con los modelos COVID-19”.

Enlace relacionado:
Facultad de Ciencias e Ingeniería Informática Paul G. Allen de la Universidad de Washington