El modelo de lenguaje de las IA muestra sesgos hacia las personas con discapacidad, según estudio

El procesamiento del lenguaje natural (NLP) es un tipo de inteligencia artificial que permite que las máquinas usen texto y palabras habladas en muchas aplicaciones diferentes, como asistentes inteligentes o autocorrección de correo electrónico y filtros de correo no deseado, lo que ayuda a automatizar y optimizar las operaciones para usuarios individuales y empresas. Sin embargo, los algoritmos que impulsan esta tecnología a menudo tienen tendencias que podrían ser ofensivas o perjudiciales para las personas con discapacidades, según investigadores del Colegio de Ciencias y Tecnología de la Información (IST) de Penn State.

Los investigadores encontraron que todos los algoritmos y modelos que probaron contenían un sesgo implícito significativo contra las personas con discapacidades. Investigaciones anteriores sobre modelos de lenguaje previamente entrenados, que se entrenan con grandes cantidades de datos que pueden contener sesgos implícitos, han encontrado sesgos sociodemográficos contra los géneros y las razas, pero hasta ahora no se han explorado ampliamente sesgos similares contra las personas con discapacidad.

“Los 13 modelos que exploramos son muy utilizados y son de naturaleza pública”, dijo Pranav Venkit, estudiante de doctorado en la Facultad de IST y primer autor del artículo del estudio presentado hoy 13 de octubre en la 29ª Conferencia Internacional sobre Lingüística Computacional (COLING). “Esperamos que nuestros hallazgos ayuden a los desarrolladores que están creando IA para ayudar a ciertos grupos, especialmente a las personas con discapacidades que dependen de la IA para recibir asistencia en sus actividades diarias, a tener en cuenta estos sesgos”.

En su estudio, los investigadores examinaron modelos de aprendizaje automático que se entrenaron con datos de origen para agrupar palabras similares, lo que permitió que una computadora generara automáticamente secuencias de palabras. Crearon cuatro plantillas de oraciones simples en las que poblar de forma variable un sustantivo de género de “hombre”, “mujer” o “persona” y uno de los 10 adjetivos más utilizados en el idioma inglés, por ejemplo, “Son padres de una buena persona.” Luego, generaron más de 600 adjetivos que podrían asociarse con personas con o sin discapacidad, como neurotípicos o con discapacidad visual, para reemplazar aleatoriamente el adjetivo en cada oración. El equipo probó más de 15 000 oraciones únicas en cada modelo para generar asociaciones de palabras para los adjetivos.

“Por ejemplo, seleccionamos la palabra ‘bueno’ y queríamos ver cómo se asociaba con los términos relacionados tanto con la discapacidad como con la no discapacidad”, explicó Venkit. “Con la adición de un término que no es de discapacidad, el efecto de ‘bueno’ se convierte en ‘excelente’. Pero cuando ‘bueno’ se asocia con un término relacionado con la discapacidad, obtenemos el resultado ‘malo’. Entonces ese cambio en la forma del adjetivo en sí mismo muestra el sesgo explícito del modelo”.

Si bien este ejercicio reveló el sesgo explícito que existe en los modelos, los investigadores querían medir más cada modelo en busca de sesgo implícito: actitudes hacia las personas o asociar estereotipos con ellas sin conocimiento consciente. Examinaron los adjetivos generados para los grupos con y sin discapacidad y midieron el sentimiento de cada uno, una técnica de PNL para calificar si el texto es positivo, negativo o neutral. Todos los modelos que estudiaron calificaron consistentemente las oraciones con palabras asociadas con la discapacidad de forma más negativa que las que no las tenían. Un modelo en particular, que se entrenó previamente con los datos de Twitter, cambió la puntuación de opinión de positiva a negativa el 86% de las veces cuando se utilizó un término relacionado con una discapacidad.

“Cuando observamos solo ese puntaje, vemos que solo al agregar un término relacionado con la discapacidad en la conversación, el puntaje de sentimiento de toda la oración cae”, dijo Venkit. “Por ejemplo, si un usuario incluye un término relacionado con la discapacidad en un comentario o publicación en las redes sociales, aumenta la probabilidad de que esa publicación sea censurada o restringida”.

Los investigadores también probaron el sesgo implícito en dos grandes modelos de lenguaje que se utilizan para generar automáticamente textos largos, como artículos de noticias, para ver cómo cambiaría un espacio en blanco en la plantilla de oración según el adjetivo utilizado. En este análisis, generaron 7.500 oraciones, nuevamente insertando adjetivos relacionados con la discapacidad o la no discapacidad, y probaron para ver cómo cambiaría un espacio en blanco en la plantilla de la oración según el adjetivo utilizado. En este caso, cuando se da la oración de “Un hombre tiene ‘espacio en blanco'”, los modelos de lenguaje predijeron “cambiaron” por la palabra en blanco. Sin embargo, cuando se agregó a la oración un adjetivo relacionado con la discapacidad, lo que resultó en “Un hombre sordociego tiene ‘espacio en blanco'”, el modelo predijo “murió” por el espacio en blanco.

El sesgo implícito de los modelos contra las personas con discapacidad podría ser evidente en varias aplicaciones, por ejemplo, en los mensajes de texto cuando se aplica la autocorrección a una palabra mal escrita o en las redes sociales donde existen reglas que prohíben las publicaciones abusivas o acosadoras. En este último, debido a que los humanos no pueden revisar la gran cantidad de publicaciones que se realizan, los modelos de inteligencia artificial utilizan estos puntajes de sentimiento para filtrar aquellas publicaciones que se considera que violan los estándares de la comunidad de la plataforma.

“Si alguien está discutiendo sobre discapacidad, y aunque la publicación no sea tóxica, un modelo como este que no se enfoca en separar los sesgos podría categorizar la publicación como tóxica solo porque hay una discapacidad asociada con la publicación”, explicó Mukund Srinath, estudiante de doctorado en el College of IST y coautor del estudio.

“Cada vez que un investigador o desarrollador usa uno de estos modelos, no siempre observa las diferentes formas y las diferentes personas a las que afectará, especialmente si se concentran en los resultados y en qué tan bien funciona”, dijo Venkit. “Este trabajo muestra que las personas deben preocuparse por qué tipo de modelos están usando y cuáles son las repercusiones que podrían afectar a las personas reales en su vida cotidiana”.

Venkit y Srinath colaboraron con Shomir Wilson, profesor asistente de ciencias y tecnología de la información, en el proyecto.

Fuente: Tech Xplore.