Las personas dependen cada vez más de la inteligencia artificial (IA) para los diagnósticos médicos debido a la rapidez y eficiencia con la que estas herramientas pueden detectar anomalías y señales de advertencia en historiales médicos, radiografías y otros conjuntos de datos antes de que se vuelvan obvios a simple vista. Pero un nuevo estudio publicado el 20 de diciembre de 2024 en el BMJ plantea inquietudes de que las tecnologías de IA como los grandes modelos de lenguaje (LLM) y los chatbots, al igual que las personas, muestren signos de deterioro de las capacidades cognitivas con la edad.
“Estos hallazgos desafían la suposición de que la inteligencia artificial pronto reemplazará a los médicos humanos”, escribieron los autores del estudio en el artículo, “ya que el deterioro cognitivo evidente en los principales chatbots puede afectar su confiabilidad en los diagnósticos médicos y socavar la confianza de los pacientes”.
Los científicos probaron chatbots impulsados por LLM disponibles públicamente, incluidos ChatGPT de OpenAI, Sonnet de Anthropic y Gemini de Alphabet, utilizando la prueba de Evaluación Cognitiva de Montreal (MoCA), una serie de tareas que utilizan los neurólogos para evaluar las capacidades de atención, memoria, lenguaje, habilidades espaciales y función mental ejecutiva. La MoCA se utiliza con mayor frecuencia para evaluar o probar la aparición de deterioro cognitivo en enfermedades como la enfermedad de Alzheimer o la demencia. A los sujetos se les asignan tareas como dibujar una hora específica en la esfera de un reloj, comenzar en 100 y restar siete repetidamente, recordar tantas palabras como sea posible de una lista hablada, etc. En los seres humanos, 26 de 30 se considera una puntuación de aprobación (es decir, el sujeto no tiene deterioro cognitivo).
Si bien algunos aspectos de las pruebas, como la denominación, la atención, el lenguaje y la abstracción, fueron aparentemente fáciles para la mayoría de los LLM utilizados, todos tuvieron un desempeño deficiente en habilidades visuales/espaciales y tareas ejecutivas, y varios obtuvieron peores resultados que otros en áreas como la memoria diferida. Fundamentalmente, mientras que la versión más reciente de ChatGPT (versión 4) obtuvo la puntuación más alta (26 de 30), el LLM Gemini 1.0 más antiguo obtuvo solo 16, lo que lleva a la conclusión de que los LLM más antiguos muestran signos de deterioro cognitivo.
Los autores del estudio señalan que sus hallazgos son sólo observacionales: las diferencias críticas entre las formas en que funcionan la IA y la mente humana significan que el experimento no puede constituir una comparación directa. Pero advierten que podría señalar lo que llaman un “área significativa de debilidad” que podría frenar el despliegue de la IA en la medicina clínica. Específicamente, argumentaron en contra del uso de la IA en tareas que requieren abstracción visual y función ejecutiva.
También plantea la idea, un tanto divertida, de que los neurólogos humanos se enfrenten a un mercado totalmente nuevo: las propias IA que presentan signos de deterioro cognitivo.
Fuente: Live Science.