{"id":44643,"date":"2023-11-11T23:19:23","date_gmt":"2023-11-12T04:19:23","guid":{"rendered":"https:\/\/einsteresante.com\/?p=44643"},"modified":"2023-11-11T23:19:24","modified_gmt":"2023-11-12T04:19:24","slug":"el-mundo-se-esta-quedando-sin-datos-para-alimentar-a-la-ia-advierten-expertos","status":"publish","type":"post","link":"https:\/\/einsteresante.com\/index.php\/2023\/11\/11\/el-mundo-se-esta-quedando-sin-datos-para-alimentar-a-la-ia-advierten-expertos\/","title":{"rendered":"El mundo se est\u00e1 quedando sin datos para alimentar a la IA, advierten expertos"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">A medida que la inteligencia artificial (IA) alcanza la cima de su popularidad, los investigadores han advertido que la industria podr\u00eda estar quedando sin datos de entrenamiento, el combustible que hace funcionar los potentes sistemas de IA. Esto podr\u00eda frenar el crecimiento de los modelos de IA, especialmente los modelos de lenguajes grandes, e incluso podr\u00eda alterar la trayectoria de la revoluci\u00f3n de la IA.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Pero, \u00bfpor qu\u00e9 es un problema la posible falta de datos, considerando cu\u00e1ntos hay en la web? \u00bfY hay alguna manera de abordar el riesgo?<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Por qu\u00e9 los datos de alta calidad son importantes para la IA<br><\/strong>Necesitamos muchos datos para entrenar algoritmos de IA potentes, precisos y de alta calidad. Por ejemplo, ChatGPT se entren\u00f3 con 570 gigabytes de datos de texto, o alrededor de 300 mil millones de palabras.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">De manera similar, el algoritmo de difusi\u00f3n estable (que est\u00e1 detr\u00e1s de muchas aplicaciones de generaci\u00f3n de im\u00e1genes de IA como DALL-E, Lensa y Midjourney) se entren\u00f3 en el conjunto de datos LIAON-5B que comprende 5.800 millones de pares de im\u00e1genes y texto. Si un algoritmo se entrena con una cantidad insuficiente de datos, producir\u00e1 resultados inexactos o de baja calidad.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">La calidad de los datos de entrenamiento tambi\u00e9n es importante. Los datos de baja calidad, como publicaciones en redes sociales o fotograf\u00edas borrosas, son f\u00e1ciles de obtener, pero no son suficientes para entrenar modelos de IA de alto rendimiento.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">El texto tomado de las plataformas de redes sociales puede ser sesgado o prejuicioso, o puede incluir desinformaci\u00f3n o contenido ilegal que el modelo podr\u00eda replicar. Por ejemplo, cuando Microsoft intent\u00f3 entrenar su robot de inteligencia artificial utilizando contenido de Twitter, aprendi\u00f3 a producir resultados racistas y mis\u00f3ginos.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Es por eso que los desarrolladores de IA buscan contenido de alta calidad, como textos de libros, art\u00edculos en l\u00ednea, art\u00edculos cient\u00edficos, Wikipedia y cierto contenido web filtrado. El Asistente de Google fue entrenado en 11.000 novelas rom\u00e1nticas extra\u00eddas del sitio de autoedici\u00f3n Smashwords para hacerlo m\u00e1s conversacional.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>\u00bfTenemos suficientes datos?<br><\/strong>La industria de la IA ha estado entrenando sistemas de IA en conjuntos de datos cada vez m\u00e1s grandes, raz\u00f3n por la cual ahora tenemos modelos de alto rendimiento como ChatGPT o DALL-E 3. Al mismo tiempo, las investigaciones muestran que las reservas de datos en l\u00ednea est\u00e1n creciendo mucho m\u00e1s lentamente que los conjuntos de datos utilizados para entrenar a la IA.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">En un art\u00edculo publicado el a\u00f1o pasado, un grupo de investigadores predijo que nos quedaremos sin datos de texto de alta calidad antes de 2026 si contin\u00faan las tendencias actuales de entrenamiento de IA. Tambi\u00e9n estimaron que los datos ling\u00fc\u00edsticos de baja calidad se agotar\u00e1n en alg\u00fan momento entre 2030 y 2050, y los datos de im\u00e1genes de baja calidad entre 2030 y 2060.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">La IA podr\u00eda aportar hasta US$15,7 billones a la econom\u00eda mundial para 2030, seg\u00fan el grupo de contabilidad y consultor\u00eda PwC. Pero quedarse sin datos utilizables podr\u00eda ralentizar su desarrollo.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>\u00bfDeber\u00edamos preocuparnos?<br><\/strong>Si bien los puntos anteriores pueden alarmar a algunos fan\u00e1ticos de la IA, es posible que la situaci\u00f3n no sea tan mala como parece. Hay muchas inc\u00f3gnitas sobre c\u00f3mo se desarrollar\u00e1n los modelos de IA en el futuro, as\u00ed como algunas formas de abordar el riesgo de escasez de datos. Una oportunidad para los desarrolladores de IA es mejorar los algoritmos para utilizar los datos que ya tienen de manera m\u00e1s eficiente.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Es probable que en los pr\u00f3ximos a\u00f1os puedan entrenar sistemas de IA de alto rendimiento utilizando menos datos y posiblemente menos potencia computacional. Esto tambi\u00e9n ayudar\u00eda a reducir la huella de carbono de la IA.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Otra opci\u00f3n es utilizar IA para crear datos sint\u00e9ticos para entrenar sistemas. En otras palabras, los desarrolladores pueden simplemente generar los datos que necesitan, seleccionados para adaptarse a su modelo de IA particular.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Varios proyectos ya utilizan contenido sint\u00e9tico, a menudo procedente de servicios de generaci\u00f3n de datos como Mostly AI. Esto ser\u00e1 m\u00e1s com\u00fan en el futuro.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Los desarrolladores tambi\u00e9n buscan contenido fuera del espacio gratuito en l\u00ednea, como el que tienen los grandes editores y repositorios fuera de l\u00ednea. Pensemos en los millones de textos publicados antes de Internet. Disponibles digitalmente, podr\u00edan proporcionar una nueva fuente de datos para proyectos de IA.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">News Corp, uno de los propietarios de contenido de noticias m\u00e1s grandes del mundo (que tiene gran parte de su contenido detr\u00e1s de un muro de pago) dijo recientemente que estaba negociando acuerdos de contenido con desarrolladores de inteligencia artificial. Tales acuerdos obligar\u00edan a las empresas de inteligencia artificial a pagar por los datos de capacitaci\u00f3n, mientras que hasta ahora la mayor\u00eda de ellos los han obtenido de Internet de forma gratuita.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Los creadores de contenido han protestado contra el uso no autorizado de su contenido para entrenar modelos de IA, y algunos han demandado a empresas como Microsoft, OpenAI y Stability AI. Ser remunerado por tu trabajo puede ayudar a restablecer parte del desequilibrio de poder que existe entre los creativos y las empresas de IA.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Fuente: <a href=\"https:\/\/theconversation.com\/researchers-warn-we-could-run-out-of-data-to-train-ai-by-2026-what-then-216741\">The Conversation<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>A medida que la inteligencia artificial (IA) alcanza la cima de su popularidad, los investigadores han advertido que la industria podr\u00eda estar quedando sin datos de entrenamiento, el combustible que hace funcionar los potentes sistemas de IA. Esto podr\u00eda frenar el crecimiento de los modelos de IA, especialmente los modelos de lenguajes grandes, e incluso [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[14],"tags":[],"class_list":["post-44643","post","type-post","status-publish","format-standard","hentry","category-tecnologia"],"_links":{"self":[{"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/posts\/44643","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/comments?post=44643"}],"version-history":[{"count":9,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/posts\/44643\/revisions"}],"predecessor-version":[{"id":44652,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/posts\/44643\/revisions\/44652"}],"wp:attachment":[{"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/media?parent=44643"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/categories?post=44643"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/tags?post=44643"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}