IA traduce al inglés tablillas cuneiformes de hace 5.000 años

Tecnología

La cuneiforme es uno de los primeros sistemas de escritura de la historia de la humanidad. Los arqueólogos lo han rastreado hasta el año 3400 a. C., hace la friolera de 5.400 años. También duró bastante tiempo, más de 3.000 años. Los investigadores han encontrado miles de textos escritos en cuneiforme en los idiomas sumerio y acadio; ahora han entrenado una red neuronal que puede traducir estos textos al inglés sin esfuerzo.

Un lenguaje antiguo y misterioso
La lengua acadia es una de las primeras lenguas semíticas conocidas, una familia que incluye lenguas modernas como el árabe y el hebreo. Se hablaba en la antigua Mesopotamia, principalmente en el Imperio acadio, que estaba situado en la región que hoy forma parte de Irak y el noreste de Siria. Akkadian lleva el nombre de la antigua ciudad de Akkad, uno de los principales centros de la civilización acadia.

El acadio se utilizó para una amplia gama de propósitos, desde documentos administrativos y legales hasta textos literarios y científicos. Fue escrito utilizando escritura cuneiforme en tablillas de arcilla, y su desciframiento en el siglo XIX abrió una nueva ventana al mundo antiguo, brindando a los eruditos información valiosa sobre la historia, la cultura y los logros científicos de la época.

Mientras tanto, el sumerio es uno de los idiomas más antiguos conocidos del mundo y tiene la distinción de ser un idioma aislado, lo que significa que no tiene parientes conocidos. Se hablaba en la antigua Sumeria, una región situada en la parte sur de lo que hoy es Irak. A los sumerios se les atribuye el establecimiento de una de las primeras civilizaciones del mundo alrededor del 4500 a. C., y su sociedad floreció hasta aproximadamente el 2000 a. C.

Ambos idiomas utilizaron el sistema de escritura cuneiforme, al igual que varios otros idiomas. Pero traducir el cuneiforme ha resultado ser un gran desafío.

El desciframiento completo de la escritura cuneiforme llevó más de 200 años, desde 1802 hasta 2022. La historia comienza con la llamada Inscripción Behistun. Descubierta en Irán y que data de la época del rey Darío I de Persia (550 a. C.), esta inscripción multilingüe incluía tres tipos de escritura: persa antiguo, elamita y cuneiforme acadio. El persa antiguo fue descifrado primero, proporcionando pistas para los otros dos.

Los eruditos trabajaron gradualmente en descifrar y comprender la escritura cuneiforme y, después de algunos momentos de Eureka y mucho trabajo duro, finalmente lograron una buena comprensión de la escritura cuneiforme. Pero para algunos investigadores esto no fue suficiente. Querían que la traducción cuneiforme estuviera más disponible, por lo que recurrieron a la inteligencia artificial (IA).

Cuneiforme, conoce la IA
En los últimos años, las traducciones de idiomas han avanzado mucho, y la IA está acelerando enormemente estas tendencias en la automatización. Las traducciones de IA se acercan a un momento decisivo, con algunos logros bastante sorprendentes. En el nuevo estudio, Shai Gordin y sus colegas de la Universidad de Ariel describieron un modelo de IA que puede traducir automáticamente texto acadio escrito en cuneiforme al inglés. Por ahora, esto solo está disponible para este idioma en particular (no todos los idiomas que usan la escritura cuneiforme funcionan en este momento), pero aún así es notable.

Esta es una continuación de un estudio anterior de Gordin y sus colegas que también analizó cómo se puede utilizar la IA para traducir escritura cuneiforme. Esta vez se entrenaron dos versiones del modelo. El primero traduce el acadio de las representaciones cuneiformes a la escritura laina (llamada transliteración). La otra versión se traduce de representaciones Unicode de signos cuneiformes (que es como a menudo se digitaliza el cuneiforme).

La cuneiforme es uno de los primeros sistemas de escritura de la historia de la humanidad. Los arqueólogos lo han rastreado hasta el año 3400 a. C., hace la friolera de 5.400 años. También duró bastante tiempo, más de 3.000 años. Los investigadores han encontrado miles de textos escritos en cuneiforme en los idiomas sumerio y acadio; ahora han entrenado una red neuronal que puede traducir estos textos al inglés sin esfuerzo.

Un idioma antiguo y misterioso
La lengua acadia es una de las primeras lenguas semíticas conocidas, una familia que incluye lenguas modernas como el árabe y el hebreo. Se hablaba en la antigua Mesopotamia, principalmente en el Imperio acadio, que estaba situado en la región que hoy forma parte de Irak y el noreste de Siria. El imperio lleva el nombre de la antigua ciudad de Akkad, uno de los principales centros de la civilización acadia.

El acadio se utilizó para una amplia gama de propósitos, desde documentos administrativos y legales hasta textos literarios y científicos. Fue escrito utilizando escritura cuneiforme en tablillas de arcilla, y su desciframiento en el siglo XIX abrió una nueva ventana al mundo antiguo, brindando a los eruditos información valiosa sobre la historia, la cultura y los logros científicos de la época.

Mientras tanto, el sumerio es uno de los idiomas más antiguos conocidos del mundo y tiene la distinción de ser un idioma aislado, lo que significa que no tiene parientes conocidos. Se hablaba en la antigua Sumeria, una región situada en la parte sur de lo que hoy es Irak. A los sumerios se les atribuye el establecimiento de una de las primeras civilizaciones del mundo alrededor del 4500 a. C., y su sociedad floreció hasta aproximadamente el 2000 a. C.

Ambos idiomas utilizaron el sistema de escritura cuneiforme, al igual que varios otros idiomas. Pero traducir el cuneiforme ha resultado ser un gran desafío.

El desciframiento completo de la escritura cuneiforme llevó más de 200 años, desde 1802 hasta 2022. La historia comienza con la llamada Inscripción Behistun. Descubierta en Irán y que data de la época del rey Darío I de Persia (550 a. C.), esta inscripción multilingüe incluía tres tipos de escritura: persa antiguo, elamita y cuneiforme acadio. El persa antiguo fue descifrado primero, proporcionando pistas para los otros dos.

Los eruditos trabajaron gradualmente en descifrar y comprender la escritura cuneiforme y, después de algunos momentos de Eureka y mucho trabajo duro, finalmente lograron una buena comprensión de la escritura cuneiforme. Pero para algunos investigadores esto no fue suficiente. Querían que la traducción cuneiforme estuviera más disponible, por lo que recurrieron a la inteligencia artificial (IA).

Cuneiforme, conoce la IA
En los últimos años, las traducciones de idiomas han avanzado mucho, y la IA está acelerando enormemente estas tendencias en la automatización. Las traducciones de IA se acercan a un momento decisivo, con algunos logros bastante sorprendentes. En el nuevo estudio, Shai Gordin y sus colegas de la Universidad de Ariel describieron un modelo de IA que puede traducir automáticamente texto acadio escrito en cuneiforme al inglés. Por ahora, esto solo está disponible para este idioma en particular (no todos los idiomas que usan la escritura cuneiforme funcionan en este momento), pero aún así es notable.

Esta es una continuación de un estudio anterior de Gordin y sus colegas que también analizó cómo se puede utilizar la IA para traducir escritura cuneiforme. Esta vez se entrenaron dos versiones del modelo. El primero traduce el acadio de las representaciones cuneiformes a la escritura laina (llamada transliteración). La otra versión se traduce de representaciones Unicode de signos cuneiformes (que es como a menudo se digitaliza el cuneiforme).

La primera versión dio mejores resultados en el estudio, logrando una puntuación de 37,47 en la Mejor Evaluación Bilingüe Suplente 4 (BLEU4). La puntuación del Suplente de Evaluación Bilingüe (BLEU) es una métrica que se utiliza para evaluar la calidad de las traducciones generadas por máquinas. Mide en qué medida una traducción automática de un texto coincide con un conjunto de traducciones de referencia creadas por humanos. La puntuación varía de 0 a 1 (o de 0 a 100), y las puntuaciones más altas indican mejores traducciones. Incluso los traductores humanos experimentados no suelen obtener 100, y para un idioma como el cuneiforme, 37 es suficiente para obtener una traducción decente.

El modelo logra los mejores resultados en oraciones cortas y medianas. A medida que las oraciones se hacen más largas, el modelo tiene dificultades para captar todo el contexto, aunque esto se puede entrenar en el futuro, dicen los investigadores. Otro defecto es que el modelo también “alucina”: crea resultados que son sintácticamente correctos pero completamente desacoplados del significado del texto original. Esto es algo que otros motores, especialmente ChatGPT, también hacen a veces.

La primera versión dio mejores resultados en el estudio, logrando una puntuación de 37,47 en la Mejor Evaluación Bilingüe Suplente 4 (BLEU4). La puntuación del Suplente de Evaluación Bilingüe (BLEU) es una métrica que se utiliza para evaluar la calidad de las traducciones generadas por máquinas. Mide en qué medida una traducción automática de un texto coincide con un conjunto de traducciones de referencia creadas por humanos. La puntuación varía de 0 a 1 (o de 0 a 100), y las puntuaciones más altas indican mejores traducciones. Incluso los traductores humanos experimentados no suelen obtener 100, y para un idioma como el cuneiforme, 37 es suficiente para obtener una traducción decente.

El modelo logra los mejores resultados en oraciones cortas y medianas. A medida que las oraciones se hacen más largas, el modelo tiene dificultades para captar todo el contexto, aunque esto se puede entrenar en el futuro, dicen los investigadores. Otro defecto es que el modelo también “alucina”: crea resultados que son sintácticamente correctos pero completamente desacoplados del significado del texto original. Esto es algo que otros motores, especialmente ChatGPT, también hacen a veces.

En la mayoría de los casos, sin embargo, la traducción resultó muy útil como primera pasada del texto. Los investigadores dicen que la IA puede ser utilizada por académicos o incluso por estudiantes que quieran estudiar este idioma con más detalle.

Además, a medida que esta tecnología se generaliza, no es descabellado imaginar su aplicación en aulas, museos e incluso experiencias históricas interactivas, lo que nos permitirá relacionarnos con el pasado de maneras sin precedentes. Es una visión tentadora del potencial que se encuentra en la intersección de la historia y la tecnología, una síntesis que podría redefinir nuestra comprensión de quiénes somos y de dónde venimos.

El estudio fue publicado en PNAS Nexus.

Fuente: ZME Science.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *