{"id":82838,"date":"2025-08-31T13:09:52","date_gmt":"2025-08-31T18:09:52","guid":{"rendered":"https:\/\/einsteresante.com\/?p=82838"},"modified":"2025-08-31T13:09:53","modified_gmt":"2025-08-31T18:09:53","slug":"la-ia-no-puede-resolver-estas-pruebas-que-a-los-humanos-les-toma-segundos","status":"publish","type":"post","link":"https:\/\/einsteresante.com\/index.php\/2025\/08\/31\/la-ia-no-puede-resolver-estas-pruebas-que-a-los-humanos-les-toma-segundos\/","title":{"rendered":"La IA no puede resolver estas pruebas que a los humanos les toma segundos"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\" id=\"18ec3c59-73e6-47f6-8a53-6c6d6fc6d659\">Hay muchas maneras de probar la inteligencia de una\u00a0<a href=\"https:\/\/www.livescience.com\/technology\/artificial-intelligence\"><u>inteligencia artificial: fluidez conversacional, comprensi\u00f3n lectora o\u00a0<\/u><\/a><a href=\"https:\/\/www.livescience.com\/physics-mathematics\"><u>f\u00edsica<\/u><\/a>\u00a0incre\u00edblemente dif\u00edcil. Pero algunas de las pruebas que m\u00e1s probablemente dejar\u00e1n perplejas a\u00a0<a href=\"https:\/\/archive.ph\/o\/QbTZz\/https:\/\/www.scientificamerican.com\/article\/the-ai-future-is-here\/\" target=\"_blank\" rel=\"noreferrer noopener\"><u>las IA<\/u><\/a>\u00a0son aquellas que los humanos encuentran relativamente f\u00e1ciles, incluso entretenidas. Aunque las IA sobresalen cada vez m\u00e1s en tareas que requieren altos niveles de experiencia humana, esto no significa que est\u00e9n cerca de alcanzar la inteligencia artificial general, o IAG.\u00a0<a href=\"https:\/\/www.livescience.com\/technology\/artificial-intelligence\/what-is-artificial-general-intelligence-agi\" target=\"_blank\" rel=\"noreferrer noopener\"><u>La AGI<\/u><\/a>\u00a0requiere que una IA pueda tomar una cantidad muy peque\u00f1a de informaci\u00f3n y usarla para generalizar y adaptarse a situaciones muy novedosas. Esta capacidad, que es la base del aprendizaje humano,\u00a0<a href=\"https:\/\/www.scientificamerican.com\/article\/artificial-general-intelligence-is-not-as-imminent-as-you-might-think1\/\" target=\"_blank\" rel=\"noreferrer noopener\"><u>sigue siendo un desaf\u00edo para las IA<\/u><\/a>.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Una prueba dise\u00f1ada para evaluar la capacidad de generalizaci\u00f3n de una IA es el Corpus de Abstracci\u00f3n y Razonamiento (ARC): una colecci\u00f3n de peque\u00f1os rompecabezas con cuadr\u00edculas de colores que requieren que quien los resuelva deduzca una regla oculta y la aplique a una nueva cuadr\u00edcula. Desarrollado por el investigador de IA Fran\u00e7ois Chollet en 2019, se convirti\u00f3 en la base de la Fundaci\u00f3n Premio ARC, un programa sin fines de lucro que administra la prueba, que ahora es un referente de la industria utilizado por los principales modelos de IA. La organizaci\u00f3n tambi\u00e9n desarrolla nuevas pruebas y ha estado utilizando dos de forma rutinaria (ARC-AGI-1 y su sucesor m\u00e1s desafiante, ARC-AGI-2). Esta semana, la fundaci\u00f3n lanza ARC-AGI-3, dise\u00f1ado espec\u00edficamente para probar agentes de IA y basado en hacerles jugar videojuegos.<a href=\"https:\/\/www.livescience.com\/technology\/artificial-intelligence\/ai-cant-solve-these-puzzles-that-take-humans-only-seconds\"><\/a><\/p>\n\n\n\n<p class=\"wp-block-paragraph\" id=\"18ec3c59-73e6-47f6-8a53-6c6d6fc6d659-2\">Scientific American\u00a0entrevist\u00f3 a Greg Kamradt, presidente de la Fundaci\u00f3n Premio ARC, investigador de IA y emprendedor, para comprender c\u00f3mo estas pruebas eval\u00faan las IA, qu\u00e9 nos revelan sobre el potencial de la IAG y por qu\u00e9 suelen ser un desaf\u00edo para los modelos de aprendizaje profundo, aunque muchos humanos las encuentren relativamente f\u00e1ciles. Los enlaces para realizar las pruebas se encuentran al final del art\u00edculo.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\" id=\"a568bed4-046f-4557-a554-fdabd99fbe53\">[A continuaci\u00f3n se incluye una transcripci\u00f3n editada de la entrevista].<a href=\"https:\/\/www.livescience.com\/technology\/artificial-intelligence\/ai-cant-solve-these-puzzles-that-take-humans-only-seconds\"><\/a><\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"what-definition-of-intelligence-is-measured-by-arc-agi-1-3\">\u00bfQu\u00e9 definici\u00f3n de inteligencia mide ARC-AGI-1?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\" id=\"a7a99797-8b00-4c02-8031-3b8a7831a97a\">Nuestra definici\u00f3n de inteligencia es la capacidad de aprender cosas nuevas. Ya sabemos que la IA puede ganar al ajedrez. Sabemos que pueden vencer al Go. Pero esos modelos no pueden generalizar a nuevos dominios; no pueden aprender ingl\u00e9s. Por eso, lo que Fran\u00e7ois Chollet cre\u00f3 fue un punto de referencia llamado ARC-AGI: te ense\u00f1a una minihabilidad en la pregunta y luego te pide que la demuestres. B\u00e1sicamente, te ense\u00f1amos algo y te pedimos que repitas la habilidad que acabas de aprender. As\u00ed, la prueba mide la capacidad de un modelo para aprender dentro de un dominio espec\u00edfico. Pero nuestra afirmaci\u00f3n es que no mide la IAG porque todav\u00eda se encuentra en un dominio delimitado [en el que el aprendizaje se aplica solo a un \u00e1rea limitada]. Mide que una IA puede generalizar, pero no afirmamos que esto sea IAG.<a href=\"https:\/\/www.livescience.com\/technology\/artificial-intelligence\/ai-cant-solve-these-puzzles-that-take-humans-only-seconds\"><\/a><\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"how-are-you-defining-agi-here-3\">\u00bfC\u00f3mo se define aqu\u00ed la IAG?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\" id=\"9bc030ec-33ed-4e00-88d1-4dc5ae4feb25\">Hay dos maneras de verlo. La primera, m\u00e1s tecnol\u00f3gica, es: &#8220;\u00bfPuede un sistema artificial igualar la eficiencia de aprendizaje de un humano?&#8221;. Lo que quiero decir con esto es que, despu\u00e9s de nacer, los humanos aprenden mucho m\u00e1s all\u00e1 de sus datos de entrenamiento. De hecho, no\u00a0tienen\u00a0datos de entrenamiento, salvo algunos antecedentes evolutivos. Aprendemos a hablar ingl\u00e9s, a conducir y a montar en bicicleta; todo esto fuera de nuestros datos de entrenamiento. Eso se llama generalizaci\u00f3n. Cuando podemos hacer cosas fuera de nuestro entrenamiento actual, lo definimos como inteligencia. Otra definici\u00f3n de IAG que utilizamos es que ya no podemos plantear problemas que los humanos pueden resolver y la IA no; es entonces cuando tenemos IAG. Es una definici\u00f3n observacional. La otra cara de la moneda tambi\u00e9n es cierta: mientras el Premio ARC o la humanidad en general puedan seguir encontrando problemas que los humanos pueden resolver pero la IA no, no tendremos IAG. Uno de los factores clave del benchmark de Fran\u00e7ois Chollet&#8230; es que probamos a humanos con ellos, y el humano promedio puede realizar estas tareas y estos problemas, pero la IA a\u00fan tiene muchas dificultades. Lo interesante es que algunas IA avanzadas, como Grok, pueden aprobar cualquier examen de posgrado o hacer todas estas locuras, pero esa es una inteligencia inestable. A\u00fan no tiene la capacidad de generalizaci\u00f3n de un humano. Y eso es lo que demuestra este benchmark.<a href=\"https:\/\/www.livescience.com\/technology\/artificial-intelligence\/ai-cant-solve-these-puzzles-that-take-humans-only-seconds\"><\/a><\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"how-do-your-benchmarks-differ-from-those-used-by-other-organizations-3\">\u00bfEn qu\u00e9 se diferencian sus puntos de referencia de los utilizados por otras organizaciones?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\" id=\"253367f4-9112-483d-9b84-007b558260c5\">Una de las cosas que nos diferencia es que exigimos que nuestro punto de referencia sea solucionable por humanos. Esto contrasta con otros puntos de referencia, donde se resuelven problemas de &#8220;doctorado y m\u00e1s&#8221;. No necesito que me digan que la IA es m\u00e1s inteligente que yo; ya s\u00e9 que el o3 de OpenAI puede hacer muchas cosas mejor que yo, pero no tiene la capacidad humana para generalizar. Eso es lo que medimos, as\u00ed que necesitamos evaluar a humanos. De hecho, evaluamos a 400 personas en ARC-AGI-2. Los reunimos en una sala, les proporcionamos computadoras, realizamos una selecci\u00f3n demogr\u00e1fica y luego les aplicamos la prueba. La persona promedio obtuvo un 66% en ARC-AGI-2. Sin embargo, en conjunto, las respuestas agregadas de cinco a diez personas contendr\u00e1n las respuestas correctas a todas las preguntas del ARC-AGI-2.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"what-makes-this-test-hard-for-ai-and-relatively-easy-for-humans-3\">\u00bfQu\u00e9 hace que esta prueba sea dif\u00edcil para la IA y relativamente f\u00e1cil para los humanos?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\" id=\"30f38c12-6aae-4e3f-890c-5cbc42d92737\">Hay dos cosas. Los humanos son incre\u00edblemente eficientes en el aprendizaje con muestras, lo que significa que pueden analizar un problema y, con uno o dos ejemplos, pueden adquirir la minihabilidad o transformaci\u00f3n y ponerla en pr\u00e1ctica. El algoritmo que se ejecuta en la mente humana es mucho mejor y m\u00e1s eficiente que lo que vemos actualmente con la IA.<a href=\"https:\/\/www.livescience.com\/technology\/artificial-intelligence\/ai-cant-solve-these-puzzles-that-take-humans-only-seconds\"><\/a><\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"what-is-the-difference-between-arc-agi-1-and-arc-agi-2-3\">\u00bfCu\u00e1l es la diferencia entre ARC-AGI-1 y ARC-AGI-2?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\" id=\"d050dedd-d9a6-494c-b8b0-1cb85221eedd\">ARC-AGI-1, creado por Fran\u00e7ois Chollet. Consist\u00eda en unas 1000 tareas. Eso fue en 2019. B\u00e1sicamente, cre\u00f3 la versi\u00f3n m\u00ednima viable para medir la generalizaci\u00f3n, y se mantuvo durante cinco a\u00f1os porque el aprendizaje profundo no pod\u00eda alcanzarla en absoluto. Ni siquiera se acercaba. Luego, los modelos de razonamiento lanzados en 2024 por OpenAI comenzaron a avanzar, lo que mostr\u00f3 un cambio significativo en lo que la IA pod\u00eda hacer. Despu\u00e9s, cuando llegamos a ARC-AGI-2, profundizamos un poco m\u00e1s en lo que respecta a lo que los humanos pueden hacer y la IA no. Requiere un poco m\u00e1s de planificaci\u00f3n para cada tarea. As\u00ed, en lugar de resolverla en cinco segundos, los humanos podr\u00edan hacerlo en uno o dos minutos. Hay reglas m\u00e1s complejas y las cuadr\u00edculas son m\u00e1s grandes, por lo que hay que ser m\u00e1s preciso con la respuesta, pero es m\u00e1s o menos el mismo concepto&#8230; Ahora estamos lanzando una versi\u00f3n preliminar para desarrolladores de ARC-AGI-3, que se aleja completamente de este formato. El nuevo formato ser\u00e1 interactivo. As\u00ed que consid\u00e9renlo m\u00e1s como una prueba comparativa para agentes.<a href=\"https:\/\/www.livescience.com\/technology\/artificial-intelligence\/ai-cant-solve-these-puzzles-that-take-humans-only-seconds\"><\/a><\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"how-will-arc-agi-3-test-agents-differently-compared-with-previous-tests-3\">\u00bfEn qu\u00e9 se diferenciar\u00e1n los agentes de prueba ARC-AGI-3 de las pruebas anteriores?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\" id=\"c5b22683-78fb-44ff-a575-f46bf27d8334\">Si piensas en la vida cotidiana, es raro que tengamos que tomar una decisi\u00f3n sin estado. Cuando digo sin estado, me refiero a una simple pregunta y una respuesta. Actualmente, todos los puntos de referencia son, en mayor o menor medida, sin estado. Si le haces una pregunta a un modelo de lenguaje, te da una \u00fanica respuesta. Hay muchas cosas que no se pueden probar con un punto de referencia sin estado. No se puede probar la planificaci\u00f3n. No se puede probar la exploraci\u00f3n. No se puede probar la intuici\u00f3n sobre el entorno o los objetivos que conlleva. Por eso, estamos creando 100 videojuegos novedosos que usaremos para probar con humanos y asegurarnos de que puedan realizarlos, ya que esa es la base de nuestro punto de referencia. Y luego, introduciremos IA en estos videojuegos para ver si pueden comprender este entorno que nunca antes han visto. Hasta la fecha, con nuestras pruebas internas, ninguna IA ha superado ni un solo nivel de los juegos.<a href=\"https:\/\/www.livescience.com\/technology\/artificial-intelligence\/ai-cant-solve-these-puzzles-that-take-humans-only-seconds\"><\/a><\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"can-you-describe-the-video-games-here-3\">\u00bfPuedes describir los videojuegos aqu\u00ed?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\" id=\"8fbb7e7e-eae1-42d8-bc99-d57c0e3cc484\">Cada &#8220;entorno&#8221;, o videojuego, es un rompecabezas bidimensional basado en p\u00edxeles. Estos juegos se estructuran en niveles distintos, cada uno dise\u00f1ado para ense\u00f1ar una minihabilidad espec\u00edfica al jugador (humano o IA). Para completar un nivel, el jugador debe demostrar dominio de esa habilidad ejecutando secuencias de acciones planificadas.<a href=\"https:\/\/www.livescience.com\/technology\/artificial-intelligence\/ai-cant-solve-these-puzzles-that-take-humans-only-seconds\"><\/a><\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"how-is-using-video-games-to-test-for-agi-different-from-the-ways-that-video-games-have-previously-been-used-to-test-ai-systems-3\">\u00bfEn qu\u00e9 se diferencia el uso de videojuegos para probar la IA general de las formas en que se han utilizado anteriormente para probar sistemas de IA?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\" id=\"a8dd0c36-3aab-4a33-a400-877423d5e7bd\">Los videojuegos se han utilizado desde hace tiempo como referencia en la investigaci\u00f3n de IA, siendo los juegos de Atari un ejemplo popular. Sin embargo, las referencias tradicionales de videojuegos presentan varias limitaciones. Los juegos populares cuentan con amplios datos de entrenamiento disponibles p\u00fablicamente, carecen de m\u00e9tricas de evaluaci\u00f3n de rendimiento estandarizadas y permiten m\u00e9todos de fuerza bruta que implican miles de millones de simulaciones. Adem\u00e1s, los desarrolladores que crean agentes de IA suelen tener conocimiento previo de estos juegos, lo que, sin querer, incorpora sus propios conocimientos a las soluciones.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Prueba\u00a0<a href=\"https:\/\/arcprize.org\/play?task=00576224\" target=\"_blank\" rel=\"noreferrer noopener\"><u>ARC-AGI-1<\/u><\/a>\u00a0,\u00a0<a href=\"https:\/\/arcprize.org\/play?task=1ae2feb7\" target=\"_blank\" rel=\"noreferrer noopener\"><u>ARC-AGI-2<\/u><\/a>\u00a0y\u00a0<a href=\"https:\/\/three.arcprize.org\/\" target=\"_blank\" rel=\"noreferrer noopener\"><u>ARC-AGI-3<\/u><\/a>.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Fuente: <a href=\"https:\/\/www.livescience.com\/technology\/artificial-intelligence\/ai-cant-solve-these-puzzles-that-take-humans-only-seconds\">Live Science<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Hay muchas maneras de probar la inteligencia de una\u00a0inteligencia artificial: fluidez conversacional, comprensi\u00f3n lectora o\u00a0f\u00edsica\u00a0incre\u00edblemente dif\u00edcil. Pero algunas de las pruebas que m\u00e1s probablemente dejar\u00e1n perplejas a\u00a0las IA\u00a0son aquellas que los humanos encuentran relativamente f\u00e1ciles, incluso entretenidas. Aunque las IA sobresalen cada vez m\u00e1s en tareas que requieren altos niveles de experiencia humana, esto no [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":82888,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[14],"tags":[],"class_list":["post-82838","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-tecnologia"],"_links":{"self":[{"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/posts\/82838","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/comments?post=82838"}],"version-history":[{"count":19,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/posts\/82838\/revisions"}],"predecessor-version":[{"id":82887,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/posts\/82838\/revisions\/82887"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/media\/82888"}],"wp:attachment":[{"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/media?parent=82838"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/categories?post=82838"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/tags?post=82838"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}