Artículos huérfanos: la “materia oscura” de Wikipedia

Humanidades

Wikipedia es la mayor plataforma de conocimiento en línea abierto y de libre acceso hasta el momento. En un nuevo estudio, los investigadores de la Escuela Politécnica Federal de Lausana, Suiza (EPFL) han descubierto que alrededor del 15% del contenido es efectivamente invisible para los lectores que navegan por Wikipedia y han desarrollado una nueva herramienta para ayudar a superar esto. El trabajo se publica en el servidor de preimpresión arXiv.

Con 60 millones de artículos en más de 300 versiones lingüísticas, el contenido disponible en Wikipedia crece continuamente a un ritmo de alrededor de 200 mil nuevos artículos cada mes. Los lectores suelen descubrir nuevos conocimientos y profundizar en un tema haciendo clic en hipervínculos que conectan un artículo con el siguiente. Pero ¿qué pasa con los artículos de Wikipedia a los que ningún otro artículo enlaza?

Estos se conocen comúnmente como artículos “huérfanos” y, para comprender mejor este fenómeno, los investigadores de la EPFL del Laboratorio de Ciencias de Datos (DLAB) de la Facultad de Ciencias de la Computación y la Comunicación, en colaboración con el equipo de investigación de la Fundación Wikimedia, llevaron a cabo la primera investigación sistemática de artículos huérfanos en las 319 versiones de Wikipedia en diferentes idiomas que existían en el momento en que se realizó el estudio.

“Wikipedia es una red como las carreteras, Internet, los compuestos químicos o los genes, y cualquier red tiene un concepto básico de navegabilidad para poder ir de un lugar a otro. Las redes de información están organizadas en jerarquías particulares y teníamos curiosidad por entenderlas. artículos a los que nadie accedía. Así es como empezamos a buscar artículos huérfanos”, explicó Akhil Arora, Ph.D. Investigador en DLAB y autor principal del estudio “Artículos huérfanos: La materia oscura de Wikipedia”.

Los investigadores descubrieron que casi 9 millones de artículos en Wikipedia en todos los idiomas (alrededor del 15%) eran huérfanos, efectivamente invisibles para los lectores que navegaban en Wikipedia, y existían en casi todas las áreas temáticas de la plataforma. En general, las páginas vistas recibidas por artículos no huérfanos son el doble que las páginas vistas de artículos huérfanos. Más allá de las simples correlaciones, los investigadores también establecieron una relación de causa y efecto entre la adición de enlaces entrantes a artículos huérfanos y un aumento en sus páginas vistas.

La falta de visibilidad de los artículos huérfanos se debe a la forma en que los usuarios buscan y ven las páginas en Wikipedia. La primera es a través de un motor de búsqueda, donde se dirige al usuario a una página particular de Wikipedia. El segundo es usar Wikipedia como enciclopedia y hacer clic de un artículo a otro y el tercero es una combinación de ambos.

En todos estos escenarios, un editor no sólo necesitará agregar enlaces en la dirección de salida desde el artículo que está editando, sino que también necesitará conocer todos los artículos relevantes de Wikipedia que potencialmente podrían enlazar hacia adentro, y esta es una perspectiva difícil.

“Un editor está editando algo sobre lo que sabe mucho para poder agregar enlaces externos a otros artículos”, dijo Arora. “Revertir la direccionalidad presenta muchas dificultades porque es posible que no se sea un experto en otros temas y artículos; a veces estas relaciones no son simétricas y el universo es la totalidad de Wikipedia”.

La investigación encontró que existen grandes discrepancias entre idiomas. En más de 100 idiomas, el porcentaje de artículos huérfanos supera el 30%, con una cifra especialmente alta en el árabe egipcio (78%) y el vietnamita (50%). Ambas se encuentran entre las 20 versiones lingüísticas más importantes de Wikipedia. Esto señala el desafío de la falta de capacidad de edición en algunos idiomas y demuestra la necesidad de mejorar las herramientas existentes, como FindLink, que apoyan a los editores en esta tarea. Un hallazgo interesante del estudio es que un artículo huérfano en un idioma no siempre lo es en otros idiomas y esto llevó a los investigadores a desarrollar un nuevo enfoque para identificar artículos desde los cuales vincular a los huérfanos mediante la traducción de enlaces.

“Si el mismo artículo no es huérfano en otro idioma, significa que los editores de esa comunidad pudieron encontrar otros artículos que podrían vincularse a este artículo. Así que simplemente transferimos el enlace de otros idiomas al idioma en el que el artículo era huérfano. Descubrimos que este enfoque podía sugerir enlaces para más del 63% de los artículos huérfanos”, dijo Arora.

El equipo de EPFL continúa colaborando con investigadores de la Fundación Wikimedia sobre formas en que este enfoque podría estar disponible como herramienta (ver el prototipo inicial) para mejorar la experiencia de los lectores en Wikipedia. También está utilizando la IA para ayudar en este esfuerzo en dos frentes.

Primero, los investigadores están trabajando en redes neuronales gráficas para organizar recomendaciones de enlaces que servirán de base para la herramienta. En segundo lugar, de manera similar a un mapa de calor, están desarrollando una herramienta adicional que puede guiar a los editores sobre en qué parte del texto de una página deberían considerar agregar nuevos conceptos que luego usarán IA generativa para sugerir algún texto inicial. Es importante destacar que los editores voluntarios mejoran, editan y auditan el trabajo realizado por la IA. El enfoque de la IA en Wikipedia siempre ha sido a través de sistemas de “circuito cerrado”, en los que los humanos están al tanto.

“La comunidad de editores está prestando su servicio al mundo, pero no hay suficientes, especialmente en los idiomas más pequeños. Uno de nuestros objetivos es brindar un mejor apoyo a los editores porque puede ser una tarea desalentadora escribir y mantener artículos. Wikipedia es un increíble servicio de acceso abierto y es por eso que las herramientas que estamos creando son tan útiles para los editores que realizan este valioso trabajo”, concluyó Arora.

Fuente: Tech Xplore.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *