Hay muchas maneras de probar la inteligencia de una inteligencia artificial: fluidez conversacional, comprensión lectora o física increíblemente difícil. Pero algunas de las pruebas que más probablemente dejarán perplejas a las IA son aquellas que los humanos encuentran relativamente fáciles, incluso entretenidas. Aunque las IA sobresalen cada vez más en tareas que requieren altos niveles de experiencia humana, esto no significa que estén cerca de alcanzar la inteligencia artificial general, o IAG. La AGI requiere que una IA pueda tomar una cantidad muy pequeña de información y usarla para generalizar y adaptarse a situaciones muy novedosas. Esta capacidad, que es la base del aprendizaje humano, sigue siendo un desafío para las IA.
Una prueba diseñada para evaluar la capacidad de generalización de una IA es el Corpus de Abstracción y Razonamiento (ARC): una colección de pequeños rompecabezas con cuadrículas de colores que requieren que quien los resuelva deduzca una regla oculta y la aplique a una nueva cuadrícula. Desarrollado por el investigador de IA François Chollet en 2019, se convirtió en la base de la Fundación Premio ARC, un programa sin fines de lucro que administra la prueba, que ahora es un referente de la industria utilizado por los principales modelos de IA. La organización también desarrolla nuevas pruebas y ha estado utilizando dos de forma rutinaria (ARC-AGI-1 y su sucesor más desafiante, ARC-AGI-2). Esta semana, la fundación lanza ARC-AGI-3, diseñado específicamente para probar agentes de IA y basado en hacerles jugar videojuegos.
Scientific American entrevistó a Greg Kamradt, presidente de la Fundación Premio ARC, investigador de IA y emprendedor, para comprender cómo estas pruebas evalúan las IA, qué nos revelan sobre el potencial de la IAG y por qué suelen ser un desafío para los modelos de aprendizaje profundo, aunque muchos humanos las encuentren relativamente fáciles. Los enlaces para realizar las pruebas se encuentran al final del artículo.
[A continuación se incluye una transcripción editada de la entrevista].
¿Qué definición de inteligencia mide ARC-AGI-1?
Nuestra definición de inteligencia es la capacidad de aprender cosas nuevas. Ya sabemos que la IA puede ganar al ajedrez. Sabemos que pueden vencer al Go. Pero esos modelos no pueden generalizar a nuevos dominios; no pueden aprender inglés. Por eso, lo que François Chollet creó fue un punto de referencia llamado ARC-AGI: te enseña una minihabilidad en la pregunta y luego te pide que la demuestres. Básicamente, te enseñamos algo y te pedimos que repitas la habilidad que acabas de aprender. Así, la prueba mide la capacidad de un modelo para aprender dentro de un dominio específico. Pero nuestra afirmación es que no mide la IAG porque todavía se encuentra en un dominio delimitado [en el que el aprendizaje se aplica solo a un área limitada]. Mide que una IA puede generalizar, pero no afirmamos que esto sea IAG.
¿Cómo se define aquí la IAG?
Hay dos maneras de verlo. La primera, más tecnológica, es: “¿Puede un sistema artificial igualar la eficiencia de aprendizaje de un humano?”. Lo que quiero decir con esto es que, después de nacer, los humanos aprenden mucho más allá de sus datos de entrenamiento. De hecho, no tienen datos de entrenamiento, salvo algunos antecedentes evolutivos. Aprendemos a hablar inglés, a conducir y a montar en bicicleta; todo esto fuera de nuestros datos de entrenamiento. Eso se llama generalización. Cuando podemos hacer cosas fuera de nuestro entrenamiento actual, lo definimos como inteligencia. Otra definición de IAG que utilizamos es que ya no podemos plantear problemas que los humanos pueden resolver y la IA no; es entonces cuando tenemos IAG. Es una definición observacional. La otra cara de la moneda también es cierta: mientras el Premio ARC o la humanidad en general puedan seguir encontrando problemas que los humanos pueden resolver pero la IA no, no tendremos IAG. Uno de los factores clave del benchmark de François Chollet… es que probamos a humanos con ellos, y el humano promedio puede realizar estas tareas y estos problemas, pero la IA aún tiene muchas dificultades. Lo interesante es que algunas IA avanzadas, como Grok, pueden aprobar cualquier examen de posgrado o hacer todas estas locuras, pero esa es una inteligencia inestable. Aún no tiene la capacidad de generalización de un humano. Y eso es lo que demuestra este benchmark.
¿En qué se diferencian sus puntos de referencia de los utilizados por otras organizaciones?
Una de las cosas que nos diferencia es que exigimos que nuestro punto de referencia sea solucionable por humanos. Esto contrasta con otros puntos de referencia, donde se resuelven problemas de “doctorado y más”. No necesito que me digan que la IA es más inteligente que yo; ya sé que el o3 de OpenAI puede hacer muchas cosas mejor que yo, pero no tiene la capacidad humana para generalizar. Eso es lo que medimos, así que necesitamos evaluar a humanos. De hecho, evaluamos a 400 personas en ARC-AGI-2. Los reunimos en una sala, les proporcionamos computadoras, realizamos una selección demográfica y luego les aplicamos la prueba. La persona promedio obtuvo un 66% en ARC-AGI-2. Sin embargo, en conjunto, las respuestas agregadas de cinco a diez personas contendrán las respuestas correctas a todas las preguntas del ARC-AGI-2.
¿Qué hace que esta prueba sea difícil para la IA y relativamente fácil para los humanos?
Hay dos cosas. Los humanos son increíblemente eficientes en el aprendizaje con muestras, lo que significa que pueden analizar un problema y, con uno o dos ejemplos, pueden adquirir la minihabilidad o transformación y ponerla en práctica. El algoritmo que se ejecuta en la mente humana es mucho mejor y más eficiente que lo que vemos actualmente con la IA.
¿Cuál es la diferencia entre ARC-AGI-1 y ARC-AGI-2?
ARC-AGI-1, creado por François Chollet. Consistía en unas 1000 tareas. Eso fue en 2019. Básicamente, creó la versión mínima viable para medir la generalización, y se mantuvo durante cinco años porque el aprendizaje profundo no podía alcanzarla en absoluto. Ni siquiera se acercaba. Luego, los modelos de razonamiento lanzados en 2024 por OpenAI comenzaron a avanzar, lo que mostró un cambio significativo en lo que la IA podía hacer. Después, cuando llegamos a ARC-AGI-2, profundizamos un poco más en lo que respecta a lo que los humanos pueden hacer y la IA no. Requiere un poco más de planificación para cada tarea. Así, en lugar de resolverla en cinco segundos, los humanos podrían hacerlo en uno o dos minutos. Hay reglas más complejas y las cuadrículas son más grandes, por lo que hay que ser más preciso con la respuesta, pero es más o menos el mismo concepto… Ahora estamos lanzando una versión preliminar para desarrolladores de ARC-AGI-3, que se aleja completamente de este formato. El nuevo formato será interactivo. Así que considérenlo más como una prueba comparativa para agentes.
¿En qué se diferenciarán los agentes de prueba ARC-AGI-3 de las pruebas anteriores?
Si piensas en la vida cotidiana, es raro que tengamos que tomar una decisión sin estado. Cuando digo sin estado, me refiero a una simple pregunta y una respuesta. Actualmente, todos los puntos de referencia son, en mayor o menor medida, sin estado. Si le haces una pregunta a un modelo de lenguaje, te da una única respuesta. Hay muchas cosas que no se pueden probar con un punto de referencia sin estado. No se puede probar la planificación. No se puede probar la exploración. No se puede probar la intuición sobre el entorno o los objetivos que conlleva. Por eso, estamos creando 100 videojuegos novedosos que usaremos para probar con humanos y asegurarnos de que puedan realizarlos, ya que esa es la base de nuestro punto de referencia. Y luego, introduciremos IA en estos videojuegos para ver si pueden comprender este entorno que nunca antes han visto. Hasta la fecha, con nuestras pruebas internas, ninguna IA ha superado ni un solo nivel de los juegos.
¿Puedes describir los videojuegos aquí?
Cada “entorno”, o videojuego, es un rompecabezas bidimensional basado en píxeles. Estos juegos se estructuran en niveles distintos, cada uno diseñado para enseñar una minihabilidad específica al jugador (humano o IA). Para completar un nivel, el jugador debe demostrar dominio de esa habilidad ejecutando secuencias de acciones planificadas.
¿En qué se diferencia el uso de videojuegos para probar la IA general de las formas en que se han utilizado anteriormente para probar sistemas de IA?
Los videojuegos se han utilizado desde hace tiempo como referencia en la investigación de IA, siendo los juegos de Atari un ejemplo popular. Sin embargo, las referencias tradicionales de videojuegos presentan varias limitaciones. Los juegos populares cuentan con amplios datos de entrenamiento disponibles públicamente, carecen de métricas de evaluación de rendimiento estandarizadas y permiten métodos de fuerza bruta que implican miles de millones de simulaciones. Además, los desarrolladores que crean agentes de IA suelen tener conocimiento previo de estos juegos, lo que, sin querer, incorpora sus propios conocimientos a las soluciones.
Prueba ARC-AGI-1 , ARC-AGI-2 y ARC-AGI-3.
Fuente: Live Science.
