Un equipo de investigación dirigido por Cornell ha desarrollado un anillo impulsado por inteligencia artificial equipado con tecnología de microsonar que puede rastrear de forma continua y en tiempo real la ortografía dactilológica en Lengua de Señas Americana (ASL). En su forma actual, SpellRing podría usarse para introducir texto en ordenadores o teléfonos inteligentes mediante la dactilografía, que se utiliza en la ASL para deletrear palabras sin signos correspondientes, como nombres propios, nombres y términos técnicos. Con un mayor desarrollo, el dispositivo —considerado el primero de su tipo— podría revolucionar la traducción de la ASL al rastrear continuamente palabras y oraciones completas en señas. La investigación se publica en el servidor de preimpresiones arXiv.
“Muchas otras tecnologías que reconocen la escritura dactilológica en ASL no han sido adoptadas por la comunidad de personas sordas y con dificultades auditivas debido a su tamaño voluminoso y su poca practicidad”, afirmó Hyunchul Lim, estudiante de doctorado en ciencias de la información. “Buscamos desarrollar un solo anillo que capturara todos los movimientos sutiles y complejos de los dedos en ASL”.
Lim es el autor principal de “SpellRing: Recognizing Continuous Fingerspelling in American Sign Language using a Ring”, que se presentará en la conferencia de la Association of Computing Machinery sobre Factores Humanos en Sistemas Informáticos (CHI), del 26 de abril al 1 de mayo en Yokohama, Japón.
Desarrollado por Lim e investigadores del Laboratorio de Interfaces de Computadoras Inteligentes para Interacciones Futuras (SciFi), de la Facultad de Computación y Ciencias de la Información Ann S. Bowers de Cornell, SpellRing se coloca en el pulgar y está equipado con un micrófono y un altavoz. Juntos, emiten y reciben ondas sonoras inaudibles que rastrean los movimientos de la mano y los dedos del usuario, mientras que un minigiroscopio rastrea el movimiento de la mano. Estos componentes se alojan en un anillo y una carcasa impresos en 3D, de un tamaño similar al de una moneda estadounidense de 25 centavos.
Luego, un algoritmo de aprendizaje profundo patentado procesa las imágenes del sonar y predice las letras escritas a mano en ASL en tiempo real y con una precisión similar a la de muchos sistemas existentes que requieren más hardware. Los desarrolladores evaluaron SpellRing con 20 usuarios de ASL, tanto experimentados como principiantes, y les pidieron que deletrearan de forma natural y continua más de 20 000 palabras de diversa longitud. La precisión de SpellRing se situó entre el 82% y el 92%, dependiendo de la dificultad de las palabras.
“Siempre existe una brecha entre la comunidad técnica que desarrolla herramientas y la comunidad objetivo que las utiliza”, afirmó Cheng Zhang, profesor adjunto de ciencias de la información (Cornell Bowers CIS) y coautor del artículo. “Hemos acortado parte de esa brecha. Diseñamos SpellRing para los usuarios objetivo que lo evaluaron”.
Entrenar a un sistema de IA para reconocer 26 formas de mano asociadas con cada letra del alfabeto —en particular porque los usuarios modifican naturalmente la forma de una letra en particular para lograr eficiencia, velocidad y fluidez— no fue nada sencillo, dijeron los investigadores.
“La variación entre letras puede ser significativa”, dijo Zhang, director del Laboratorio de Ciencia Ficción. “Es difícil capturarla”.
SpellRing se basa en una versión anterior del Laboratorio de Ciencia Ficción llamada Ring-a-Pose y representa la última incorporación a una línea continua de dispositivos inteligentes con sonar del laboratorio. Los investigadores han desarrollado dispositivos para interpretar la postura de las manos en realidad virtual, la parte superior del cuerpo en 3D, el reconocimiento de voz silenciosa y la mirada y las expresiones faciales, entre otros.
«Si bien los grandes modelos lingüísticos son noticia de primera plana, el aprendizaje automático permite percibir el mundo de maneras nuevas e inesperadas, como lo demuestran este proyecto y otros en el laboratorio», afirmó el coautor François Guimbretière, profesor de Ciencias de la Información (Cornell Bowers CIS). «Esto allana el camino hacia un acceso más diverso e inclusivo a los recursos computacionales».
“Quería asegurarme de que tomáramos todas las medidas posibles para hacer lo correcto para la comunidad de la ASL”, dijo la coautora Jane Lu, estudiante de doctorado en lingüística, cuya investigación se centra en la ASL. “El deletreo manual, aunque complejo y difícil de rastrear desde una perspectiva técnica, comprende solo una fracción de la ASL y no es representativo de la ASL como idioma. Aún nos queda mucho por hacer para desarrollar dispositivos comparables para el reconocimiento completo de la ASL, pero es un paso emocionante en la dirección correcta”.
El trabajo futuro de Lim incluirá la integración del sistema de microsonar en gafas para capturar los movimientos de la parte superior del cuerpo y las expresiones faciales, para un sistema de traducción de ASL más completo.
“Las personas sordas y con dificultades auditivas usan más que sus manos para la ASL. Utilizan expresiones faciales, movimientos del torso y gestos con la cabeza”, dijo Lim, quien completó cursos de ASL básico e intermedio en Cornell como parte de su investigación en SpellRing. “La ASL es un lenguaje visual muy complejo”.
Fuente: Tech Xplore.