DeepSeek prueba lo equivocado que estaba Sam Altman acerca de IAs más pequeñas compitiendo con OpenAI

Es difícil exagerar el impacto que ha tenido DeepSeek. En un par de días, sacudió a toda la industria de la IA, rompiendo el aura de invencibilidad que OpenAI (y las empresas tecnológicas estadounidenses en general) habían construido a su alrededor. La nueva IA de DeepSeek es la aplicación gratuita más descargada en la Apple Store, y no es difícil ver por qué: rivaliza o supera las opciones pagas de OpenAI. Pero esa ni siquiera es la mejor parte: DeepSeek afirma que solo tomó dos meses y costó menos de $6 millones construirla. El modelo R1 de DeepSeek cuesta 1/20 del dinero para ejecutar el modelo insignia o1 de ChatGPT. También es de código abierto.

Demostraron que Sam Altman estaba muy equivocado
En 2023, se le preguntó a Altman si un equipo inteligente con un presupuesto de alrededor de $10 millones podría intentar crear un producto que rivalizara con los de OpenAI. La respuesta de Altman fue (como suele ser) arrogante:

“Mira, la forma en que esto funciona es que te diremos que es totalmente inútil competir con nosotros en el entrenamiento de modelos básicos que no deberías probar, y es tu trabajo, por así decirlo, intentarlo de todos modos”. Bueno, lo intentaron, y Altman no es muy arrogante ahora.

Elogió a DeepSeek R1 y prometió que OpenAI producirá mejores modelos, pero el mercado y los expertos parecen menos confiados.

No es solo OpenAI, todo el mundo está enloqueciendo
No es el primer modelo de IA de código abierto de gran impacto que existe (el código fuente está disponible de forma gratuita para que cualquiera lo vea, modifique y distribuya bajo una licencia permisiva). La empresa matriz de Facebook, Meta, también ha optado por una estrategia similar con sus modelos Llama. Pero los lanzamientos de Llama han sido relativamente lentos y no tan baratos ni eficientes como los de DeepSeek. Según se informa, Meta está reuniendo a “salas de guerra” de ingenieros para averiguar cómo lo hace DeepSeek.

Para hacer las cosas aún más sorprendentes, DeepSeek logró este rendimiento mientras usaba los chips H800 menos avanzados de Nvidia. Los chips de IA son cientos o incluso miles de veces más rápidos y eficientes que las CPU para entrenar a las IA, y Nvidia es, con diferencia, el líder en este campo. Estos chips se consideraron tan importantes que el presidente Biden emitió la Ley CHIPS, que impedía que se exportaran a China chips de última generación fabricados en Estados Unidos. Bueno, DeepSeek lo hizo sin estos chips.

El índice bursátil Nasdaq, con una fuerte presencia tecnológica, se desplomó tras la noticia, al igual que la favorita del mercado de valores, Nvidia. Nvidia, que había crecido casi un 2000% en los últimos 5 años, cayó un 16% en un día. En total, DeepSeek hizo un agujero de 1 billón de dólares en los mercados globales, en gran medida porque puede ser utilizado, descargado y refinado por cualquier persona de forma gratuita.

El rendimiento de DeepSeek rivaliza o supera a los mejores modelos de IA actuales, a pesar de invertir solo una fracción de su financiación y talento. Crédito: Hackaday.

Vaibhav Srivastav, un ingeniero de Hugging Face (una plataforma para construir, compartir e implementar modelos de aprendizaje automático, con un espíritu de código abierto) dijo que este debe ser un momento “humillante” para los gigantes de la IA de Estados Unidos. Añadió que si OpenAI hubiera compartido sus recursos con otros actores en Estados Unidos, la tecnología habría avanzado más. Añadió que la verdadera pregunta es por qué el enfoque de código abierto de Meta no produjo tantos beneficios. “¿Qué diablos está haciendo Meta? Esto era algo que ellos podían perder”, dijo el investigador.

La semana pasada, Meta dijo que gastaría más de 60 mil millones de dólares en el desarrollo de IA solo este año, mientras que Altman dijo que la industria necesitaría billones de dólares en inversión para respaldar los centros de datos que ejecutan los modelos complejos.

Lo que esto realmente significa para la industria

DeepSeek (cuyo logo es una ballena azul) está atacando la aparentemente impenetrable fortaleza de la IA de las grandes tecnológicas. Ilustración de Midjourney.

Es poco probable que todos cambien al producto con sede en China de la noche a la mañana. Las liquidaciones del mercado a menudo son una reacción exagerada, y el tiempo dirá si DeepSeek es un verdadero competidor por el liderazgo de la IA. Como señala Srivastav, a menudo no se trata de la capacidad del modelo sino de lo bien que se integra en otras aplicaciones.

Además, el mundo de la IA es en gran medida un campo de investigación activo con cambios y transformaciones constantes. Sin embargo, considerando que el proyecto se consideró un “proyecto secundario” y que es tan barato, los resultados son realmente disruptivos.

La industria de la IA se estaba volviendo complaciente. El presidente Trump abrazó a las grandes tecnológicas y las grandes tecnológicas lo abrazaron a él, por lo que todo parecía ir sobre ruedas, pero las industrias competitivas rara vez lo son. Esto será una llamada de atención para la industria y mostrará que la carrera de la innovación en IA está lejos de ganarse.

El enfoque general (y lo que mantuvo en marcha el repunte de las acciones de Nvidia) fue la idea de que se necesita una superioridad computacional absoluta para construir mejores modelos. Esto fue una barrera para otros participantes. Si se necesita una gran potencia de procesamiento para construir modelos, se necesita mucho dinero para ello. Esto es lo que motivó los comentarios “desesperanzadores” de Altman. Los resultados de DeepSeek sugieren que ese no es realmente el caso y que la puerta puede estar abierta también para otros competidores. El hecho de que el modelo sea de código abierto probablemente significa que pronto veremos muchas escisiones.

Si se confirma el enfoque de DeepSeek, las grandes empresas tecnológicas como Amazon, Alphabet, Meta y Microsoft podrían tener que cambiar de planes actuales. Ya habían invertido mucho en centros de datos de IA (que implican muchos chips y mucha energía). Si eso no es necesario, sería una buena noticia para el planeta, ya que los centros de datos que consumen mucha energía ya estaban teniendo un impacto en el uso global de energía. También podría liberar algunos recursos de las grandes tecnológicas y permitirles centrarse en otros tipos de innovación distintos del enfoque de “fuerza bruta”. Pero también sugiere que la fortaleza que rodea los esfuerzos de IA de las grandes tecnológicas puede no ser tan impenetrable como pensábamos. En pocas palabras, probablemente veremos pronto modelos mucho más competitivos, porque DeepSeek (a diferencia de los productos de OpenAI) se puede descargar y ejecutar en computadoras personales, incluso sin conexión a Internet.

Lo que debes saber sobre DeepSeek
La empresa fue fundada en 2023 por Liang Wenfeng, un nombre poco conocido en el mundo de la IA hasta ahora. Wenfeng es un ingeniero electrónico que se graduó de sus estudios de maestría en 2010. Desde entonces, ha trabajado en comercio cuantitativo y ha tratado de integrar las matemáticas y la IA en el comercio. En 2019, administraba alrededor de US$13 mil millones en activos. Ha hablado repetidamente sobre cómo las empresas chinas están demasiado acostumbradas a seguir y, en cambio, deberían tratar de liderar los mercados.

DeepSeek se fundó cuando Liang adquirió 10,000 GPU Nvidia A100 antes de que el gobierno de EE. UU. impusiera restricciones a los chips de IA en China. En China, rápidamente se hizo conocida por su alternativa barata a la IA, lo que provocó una guerra de precios con otras empresas chinas rivales de IA como Bytedance. Aunque DeepSeek cobraba precios más bajos que sus competidores, era rentable, mientras que sus competidores perdían dinero, una señal de que sus modelos ya eran muy eficientes.

Sin embargo, Liang ha declarado que DeepSeek se centra únicamente en la investigación y no tiene planes detallados de comercialización, lo que le permitió evitar las estrictas disposiciones impuestas por el gobierno chino. Esto también significa que tiene que cumplir con la censura impuesta por China. Por ejemplo, se negará a hablar sobre la masacre de Tiananmen u otros temas que China considere “sensibles”, como la persecución de los uigures por parte de China o los derechos humanos en China.

R1 de DeepSeek describió a Taiwán como “una parte inalienable del territorio de China” y declaró: “Nos oponemos firmemente a cualquier forma de actividad separatista de ‘independencia de Taiwán’ y estamos comprometidos a lograr la reunificación completa de la patria a través de medios pacíficos”.

En términos simples, DeepSeek es un chatbot impulsado por IA, como ChatGPT. La descripción de su aplicación dice vagamente que está diseñado “para responder a sus preguntas y mejorar su vida de manera eficiente”. Funciona con el mismo enfoque general que el modelo O1 de Open AI, utilizando un “razonamiento” de varios pasos, considerado actualmente el enfoque más poderoso.

El Partido Comunista de China aún no ha comentado los logros, pero los medios estatales chinos se mostraron exultantes y señalaron que Silicon Valley está “perdiendo el sueño” por DeepSeek.

“En China, los avances de DeepSeek se celebran como un testimonio de la creciente destreza tecnológica y la autosuficiencia del país”, dice Marina Zhang, profesora asociada de la Universidad de Tecnología de Sydney, para la BBC.

“El éxito de la empresa se considera una validación de la Innovación 2.0 de China, una nueva era de liderazgo tecnológico local impulsado por una generación más joven de empresarios”.

Los consumidores que deseen utilizar este producto deben ser conscientes de los posibles problemas de privacidad. Si bien se confirma la censura en DeepSeek, también existen temores de que el sistema de inteligencia artificial pueda usarse para la influencia extranjera, la desinformación, la vigilancia y el desarrollo de armas cibernéticas para el servicio secreto chino. Al igual que TikTok, los expertos advierten que la aplicación transfiere “explícitamente” datos personales a China.

Fuente: ZME Science.

Noticias y artículos relacionados

Este sistema de defensa de microondas elimina los drones en el cielo

Por primera vez, la IA da mejores predicciones del tiempo. Y es muy rápida

Nueva tela hace más soportables las islas de calor urbanas