Las imágenes médicas son la piedra angular del diagnóstico, y la Inteligencia Artificial (IA) promete revolucionar eso. Con el poder de detectar características y tendencias invisibles para el ojo humano, la IA promete diagnósticos más rápidos y precisos.
Pero debajo de esta promesa hay una falla preocupante: la tendencia de la IA a tomar atajos y sacar conclusiones precipitadas.
Estos atajos pueden llevar a conclusiones engañosas y a veces peligrosas. Como, por ejemplo, los algoritmos que creen que pueden “predecir” el resultado de una radiografía basándose en si alguien bebe cerveza o no.
Los investigadores entrenaron redes neuronales convolucionales (CNN), uno de los tipos más populares de algoritmos de aprendizaje profundo, para realizar una tarea extraña: predecir si un paciente evitó comer frijoles refritos o beber cerveza simplemente mirando sus radiografías de rodilla. El modelo hizo exactamente eso: logró una tasa de precisión del 63% para predecir la evitación de los frijoles y una tasa de precisión del 73% para la evitación de la cerveza.
Obviamente, esto desafía la lógica. No hay conexión entre la anatomía de la rodilla y las preferencias dietéticas. Sin embargo, los modelos produjeron resultados estadísticamente significativos. Pero este extraño resultado no se debió a ningún conocimiento médico oculto. En cambio, fue un ejemplo clásico de aprendizaje por atajos.
Aprendizaje por atajos y variables de confusión
Este estudio utilizó el conjunto de datos de la Iniciativa de Osteoartritis (OAI), una vasta colección de más de 25.000 radiografías de rodilla. El conjunto de datos incluía varios factores de confusión, variables que podrían distorsionar el aprendizaje del modelo. Los investigadores descubrieron que los modelos de IA podían predecir el sexo del paciente, la raza, el sitio clínico e incluso el fabricante de la máquina de rayos X con una precisión sorprendente. Por ejemplo:
- Predicción de sexo: 98,7 % de precisión
- Predicción de sitio clínico: 98,2 % de precisión
- Predicción de raza: 92,1 % de precisión
Esta es una buena información, pero aquí está la cuestión: la IA puede estar usando estos factores de confusión como atajos. Por ejemplo, si un centro clínico en particular tiene más pacientes de un grupo demográfico específico, la IA podría asociar ese grupo demográfico con ciertos diagnósticos, un atajo que refleja sesgo en lugar de realidad médica.
El aprendizaje por atajos ocurre cuando los modelos de IA explotan patrones superficiales en los datos en lugar de aprender relaciones significativas. En las imágenes médicas, el aprendizaje por atajos significa que el modelo no reconoce afecciones médicas, sino que se aferra a pistas irrelevantes.
“Si bien la IA tiene el potencial de transformar las imágenes médicas, debemos ser cautelosos”, dice el autor principal del estudio, el Dr. Peter Schilling, cirujano ortopédico en el Centro Médico Dartmouth Hitchcock de Dartmouth Health y profesor adjunto de ortopedia en la Escuela de Medicina Geisel de Dartmouth.
“Estos modelos pueden ver patrones que los humanos no pueden, pero no todos los patrones que identifican son significativos o confiables”, dice Schilling. “Es crucial reconocer estos riesgos para evitar conclusiones engañosas y garantizar la integridad científica”.
Podría convertirse en un problema mayor
La sociedad en general todavía está decidiendo cuál es la forma aceptable de usar la IA en la atención médica. Los profesionales coinciden en que no se debe permitir que la IA interprete las imágenes médicas por sí sola; como mucho, se la debe utilizar como una muleta, y los resultados y la interpretación deben ser analizados nuevamente por un experto. Pero, dado que el uso de la IA se está extendiendo cada vez más y que hay escasez de personal a gran escala, la IA puede asumir un papel más central. Por eso los hallazgos son tan preocupantes.
Por ejemplo, la IA podría identificar un sitio clínico en particular basándose en marcadores únicos en la imagen de rayos X, como la ubicación de las etiquetas o las secciones en negro que se utilizan para ocultar la información del paciente. Estos marcadores pueden correlacionarse con la demografía del paciente u otras variables latentes como la edad, la raza o la dieta, factores que no deberían afectar el diagnóstico pero que pueden sesgar las predicciones de la IA.
Imaginemos una IA entrenada para detectar una enfermedad en radiografías de tórax. Si la IA aprende a asociar el estilo de etiquetado de un hospital en particular con la prevalencia de la enfermedad, sus predicciones no serán confiables cuando se apliquen a imágenes de otros hospitales. Este tipo de sesgo puede dar lugar a diagnósticos erróneos y resultados de investigación defectuosos.
El aprendizaje por atajos también socava la credibilidad de los descubrimientos impulsados por la IA. Los investigadores y los médicos pueden verse engañados al pensar que la IA ha identificado un descubrimiento médico revolucionario cuando, de hecho, simplemente ha explotado un patrón sin sentido.
“Esto va más allá del sesgo basado en pistas de raza o género”, dice Brandon Hill, coautor del estudio y científico de aprendizaje automático en Dartmouth Hitchcock. “Descubrimos que el algoritmo incluso podía aprender a predecir el año en que se tomó una radiografía. Es pernicioso: cuando se le impide aprender uno de estos elementos, en su lugar aprenderá otro que antes ignoraba. Este peligro puede dar lugar a algunas afirmaciones realmente dudosas, y los investigadores deben ser conscientes de la facilidad con la que esto sucede cuando se utiliza esta técnica”.
¿Podemos solucionarlo?
Es muy difícil eliminar el aprendizaje abreviado. Incluso con un preprocesamiento y una normalización extensivos de las imágenes, la IA seguía identificando patrones que los humanos no podían ver y tendía a hacer interpretaciones basadas en ellos. Esta capacidad de “hacer trampa” al encontrar correlaciones irrelevantes pero estadísticamente significativas plantea un grave riesgo para las aplicaciones médicas.
El desafío del aprendizaje abreviado no tiene una solución fácil. Los investigadores han propuesto varios métodos para reducir el sesgo, como equilibrar los conjuntos de datos o eliminar las variables de confusión. Pero este estudio muestra que estas soluciones a menudo no son suficientes. El aprendizaje abreviado puede involucrar múltiples factores entrelazados, lo que dificulta aislar y corregir cada uno de ellos.
Los autores del estudio sostienen que la IA en las imágenes médicas necesita un mayor escrutinio. Los algoritmos de aprendizaje profundo no son pruebas de hipótesis, son poderosas herramientas de reconocimiento de patrones. Cuando se utilizan para el descubrimiento científico, sus resultados deben validarse rigurosamente para garantizar que reflejen conocimientos médicos verdaderos en lugar de artefactos estadísticos. Esencialmente, necesitamos someter a las IA a un escrutinio mucho mayor, especialmente en un contexto médico.
“La carga de la prueba aumenta considerablemente cuando se trata de utilizar modelos para el descubrimiento de nuevos patrones en medicina”, afirma Hill. “Parte del problema es nuestro propio sesgo. Es increíblemente fácil caer en la trampa de suponer que el modelo ‘ve’ de la misma manera que nosotros. Al final, no es así”.
Los investigadores también advierten que no se debe tratar a la IA como a un colega experto.
“La IA es casi como tratar con una inteligencia extraterrestre”, continúa Hill. “Queremos decir que el modelo está ‘haciendo trampa’, pero eso antropomorfiza la tecnología. Aprendió una forma de resolver la tarea que se le asignó, pero no necesariamente como lo haría una persona. No tiene lógica ni razonamiento como los entendemos normalmente”.
Referencia de la revista: Ravi Aggarwal et al, Diagnostic accurate of deep learning in medical imaging: a systematic review and meta-analysis, npj Digital Medicine (2021). DOI: 10.1038/s41746-021-00438-z
Fuente: ZME Science.