El mundo se está quedando sin datos para alimentar a la IA, advierten expertos

Tecnología

A medida que la inteligencia artificial (IA) alcanza la cima de su popularidad, los investigadores han advertido que la industria podría estar quedando sin datos de entrenamiento, el combustible que hace funcionar los potentes sistemas de IA. Esto podría frenar el crecimiento de los modelos de IA, especialmente los modelos de lenguajes grandes, e incluso podría alterar la trayectoria de la revolución de la IA.

Pero, ¿por qué es un problema la posible falta de datos, considerando cuántos hay en la web? ¿Y hay alguna manera de abordar el riesgo?

Por qué los datos de alta calidad son importantes para la IA
Necesitamos muchos datos para entrenar algoritmos de IA potentes, precisos y de alta calidad. Por ejemplo, ChatGPT se entrenó con 570 gigabytes de datos de texto, o alrededor de 300 mil millones de palabras.

De manera similar, el algoritmo de difusión estable (que está detrás de muchas aplicaciones de generación de imágenes de IA como DALL-E, Lensa y Midjourney) se entrenó en el conjunto de datos LIAON-5B que comprende 5.800 millones de pares de imágenes y texto. Si un algoritmo se entrena con una cantidad insuficiente de datos, producirá resultados inexactos o de baja calidad.

La calidad de los datos de entrenamiento también es importante. Los datos de baja calidad, como publicaciones en redes sociales o fotografías borrosas, son fáciles de obtener, pero no son suficientes para entrenar modelos de IA de alto rendimiento.

El texto tomado de las plataformas de redes sociales puede ser sesgado o prejuicioso, o puede incluir desinformación o contenido ilegal que el modelo podría replicar. Por ejemplo, cuando Microsoft intentó entrenar su robot de inteligencia artificial utilizando contenido de Twitter, aprendió a producir resultados racistas y misóginos.

Es por eso que los desarrolladores de IA buscan contenido de alta calidad, como textos de libros, artículos en línea, artículos científicos, Wikipedia y cierto contenido web filtrado. El Asistente de Google fue entrenado en 11.000 novelas románticas extraídas del sitio de autoedición Smashwords para hacerlo más conversacional.

¿Tenemos suficientes datos?
La industria de la IA ha estado entrenando sistemas de IA en conjuntos de datos cada vez más grandes, razón por la cual ahora tenemos modelos de alto rendimiento como ChatGPT o DALL-E 3. Al mismo tiempo, las investigaciones muestran que las reservas de datos en línea están creciendo mucho más lentamente que los conjuntos de datos utilizados para entrenar a la IA.

En un artículo publicado el año pasado, un grupo de investigadores predijo que nos quedaremos sin datos de texto de alta calidad antes de 2026 si continúan las tendencias actuales de entrenamiento de IA. También estimaron que los datos lingüísticos de baja calidad se agotarán en algún momento entre 2030 y 2050, y los datos de imágenes de baja calidad entre 2030 y 2060.

La IA podría aportar hasta US$15,7 billones a la economía mundial para 2030, según el grupo de contabilidad y consultoría PwC. Pero quedarse sin datos utilizables podría ralentizar su desarrollo.

¿Deberíamos preocuparnos?
Si bien los puntos anteriores pueden alarmar a algunos fanáticos de la IA, es posible que la situación no sea tan mala como parece. Hay muchas incógnitas sobre cómo se desarrollarán los modelos de IA en el futuro, así como algunas formas de abordar el riesgo de escasez de datos. Una oportunidad para los desarrolladores de IA es mejorar los algoritmos para utilizar los datos que ya tienen de manera más eficiente.

Es probable que en los próximos años puedan entrenar sistemas de IA de alto rendimiento utilizando menos datos y posiblemente menos potencia computacional. Esto también ayudaría a reducir la huella de carbono de la IA.

Otra opción es utilizar IA para crear datos sintéticos para entrenar sistemas. En otras palabras, los desarrolladores pueden simplemente generar los datos que necesitan, seleccionados para adaptarse a su modelo de IA particular.

Varios proyectos ya utilizan contenido sintético, a menudo procedente de servicios de generación de datos como Mostly AI. Esto será más común en el futuro.

Los desarrolladores también buscan contenido fuera del espacio gratuito en línea, como el que tienen los grandes editores y repositorios fuera de línea. Pensemos en los millones de textos publicados antes de Internet. Disponibles digitalmente, podrían proporcionar una nueva fuente de datos para proyectos de IA.

News Corp, uno de los propietarios de contenido de noticias más grandes del mundo (que tiene gran parte de su contenido detrás de un muro de pago) dijo recientemente que estaba negociando acuerdos de contenido con desarrolladores de inteligencia artificial. Tales acuerdos obligarían a las empresas de inteligencia artificial a pagar por los datos de capacitación, mientras que hasta ahora la mayoría de ellos los han obtenido de Internet de forma gratuita.

Los creadores de contenido han protestado contra el uso no autorizado de su contenido para entrenar modelos de IA, y algunos han demandado a empresas como Microsoft, OpenAI y Stability AI. Ser remunerado por tu trabajo puede ayudar a restablecer parte del desequilibrio de poder que existe entre los creativos y las empresas de IA.

Fuente: The Conversation.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *