La inteligencia artificial (IA) ha avanzado, pero aún está lejos de ser perfecta. Los sistemas de IA pueden tomar decisiones sesgadas, debido a los datos con los que están entrenados o a la forma en que están diseñados, y un nuevo estudio sugiere que los médicos que utilizan la IA para ayudar a diagnosticar a los pacientes podrían no ser capaces de detectar signos de tal sesgo.
La investigación, publicada el martes 19 de diciembre en JAMA, probó un sistema de inteligencia artificial específico diseñado para ayudar a los médicos a llegar a un diagnóstico. Descubrieron que, de hecho, ayudaba a los médicos a diagnosticar a los pacientes con mayor precisión, y si la IA “explicaba” cómo tomó su decisión, su precisión aumentaba aún más.
Pero cuando los investigadores probaron una IA que estaba programada para estar intencionalmente sesgada hacia dar diagnósticos específicos a pacientes con ciertos atributos, su uso disminuyó la precisión de los médicos. Los investigadores descubrieron que, incluso cuando la IA dio explicaciones que mostraban que sus resultados estaban obviamente sesgados y llenos de información irrelevante, esto hizo poco para compensar la disminución en la precisión. Aunque el sesgo en la IA del estudio fue diseñado para ser obvio, la investigación señala lo difícil que podría ser para los médicos detectar un sesgo más sutil en una IA que encuentran fuera del contexto de la investigación.
“El artículo simplemente resalta lo importante que es hacer nuestra debida diligencia para garantizar que estos modelos no tengan ninguno de estos sesgos”, dijo el Dr. Michael Sjoding, profesor asociado de medicina interna de la Universidad de Michigan y autor principal del el estudio, a Live Science.
Para el estudio, los investigadores crearon una encuesta en línea que presentaba a médicos, enfermeras y asistentes médicos descripciones realistas de pacientes que habían sido hospitalizados con insuficiencia respiratoria aguda, una afección en la que los pulmones no pueden llevar suficiente oxígeno a la sangre. Las descripciones incluyeron los síntomas de cada paciente, los resultados de un examen físico, resultados de pruebas de laboratorio y una radiografía de tórax. Cada paciente tenía neumonía, insuficiencia cardíaca, enfermedad pulmonar obstructiva crónica, varias de estas afecciones o ninguna de ellas. Durante la encuesta, cada médico diagnosticó a dos pacientes sin la ayuda de IA, seis pacientes con IA y uno con la ayuda de un colega hipotético que siempre sugirió el diagnóstico y el tratamiento correctos.
Tres de las predicciones de la IA fueron diseñadas para estar sesgadas intencionalmente. Por ejemplo, una introdujo un sesgo basado en la edad, lo que hacía desproporcionadamente más probable que a un paciente se le diagnosticara neumonía si tuviera más de 80 años. Otra predeciría que los pacientes con obesidad tenían una probabilidad falsamente alta de insuficiencia cardíaca en comparación con pacientes de menor peso.
La IA clasificó cada diagnóstico potencial con un número del cero al 100, siendo 100 el más seguro. Si una puntuación era 50 o más, la IA proporcionaba explicaciones de cómo alcanzó la puntuación: específicamente, generaba “mapas de calor” que mostraban qué áreas de la radiografía de tórax la IA consideraba más importantes a la hora de tomar su decisión.
El estudio analizó las respuestas de 457 médicos que diagnosticaron al menos a un paciente ficticio; 418 diagnosticaron los nueve. Sin una ayuda de IA, los diagnósticos de los médicos fueron precisos aproximadamente el 73% de las veces. Con la IA estándar e imparcial, este porcentaje saltó al 75,9%. A quienes se les dio una explicación les fue aún mejor, alcanzando una precisión del 77,5%.
Sin embargo, la IA sesgada disminuyó la precisión de los médicos al 61,7% si no se daba ninguna explicación. Fue sólo ligeramente superior cuando se dieron explicaciones sesgadas; estos a menudo resaltaban partes irrelevantes de la radiografía de tórax del paciente.
La IA sesgada también afectó la capacidad de los médicos de seleccionar los tratamientos correctos. Con o sin explicaciones, los médicos prescribieron el tratamiento correcto sólo el 55,1% de las veces cuando se les mostraron predicciones generadas por el algoritmo sesgado. Su precisión sin IA fue del 70,3%.
El estudio “destaca que los médicos no deben confiar demasiado en la IA”, afirmó Ricky Leung, profesor asociado que estudia la IA y la salud en la Escuela de Salud Pública de la Universidad de Albany y que no participó en el estudio. “El médico necesita comprender cómo se construyeron los modelos de IA que se están implementando, si existe un posible sesgo, etc”, dijo Leung a Live Science en un correo electrónico.
El estudio tiene la limitación de que utilizó pacientes modelo descritos en una encuesta en línea, que es muy diferente de una situación clínica real con pacientes vivos. Tampoco incluyó a ningún radiólogo, que está más acostumbrado a interpretar radiografías de tórax pero que no serían quienes tomarían decisiones clínicas en un hospital real.
Cualquier herramienta de IA utilizada para el diagnóstico debe desarrollarse específicamente para el diagnóstico y probarse clínicamente, prestando especial atención a limitar el sesgo, dijo Sjoding. Pero el estudio muestra que podría ser igualmente importante capacitar a los médicos sobre cómo utilizar correctamente la IA en los diagnósticos y reconocer signos de sesgo.
“Todavía hay optimismo de que [si los médicos] reciben una capacitación más específica sobre el uso de modelos de IA, podrán usarlos de manera más efectiva”, afirmó Sjoding.
Fuente: Live Science.