DeepSeek-R1, un nuevo modelo de razonamiento creado por investigadores chinos, completa tareas con una destreza comparable a la del o1 de OpenAI por una fracción de su coste.
China ha lanzado un rival barato y de código abierto del ChatGPT de OpenAI, y tiene a algunos científicos entusiasmados y a Silicon Valley preocupado.
DeepSeek, el laboratorio chino de inteligencia artificial (IA) que está detrás de esta innovación, presentó a finales de diciembre de 2024 su gran modelo lingüístico (LLM) DeepSeek-V3 gratuito y afirma que se construyó en dos meses por sólo 5.58 millones de dólares, una fracción del tiempo y el coste que necesitan sus competidores de Silicon Valley.
DeepSeek-R1, el rival de ChatGPT
Le pisa los talones un modelo aún más reciente llamado DeepSeek-R1, presentado el lunes (20 de enero). En las pruebas de referencia de terceros, DeepSeek-V3 igualó las capacidades de GPT-4o de OpenAI y Claude Sonnet 3.5 de Anthropic, al tiempo que superaba a otros, como Llama 3.1 de Meta y Qwen2.5 de Alibaba, en tareas que incluían resolución de problemas, codificación y matemáticas.
Ahora, R1 también ha superado al último modelo o1 de ChatGPT en muchas de las mismas pruebas. Este impresionante rendimiento -a una fracción del coste de otros modelos, junto con su naturaleza de código semiabierto- ha asombrado a los expertos en IA y ha despertado el fantasma de que los modelos chinos de IA superen a sus homólogos estadounidenses.
Satya Nadella, consejero delegado de Microsoft y socio estratégico de OpenAI, dijo en el Foro Económico Mundial de Davos (Suiza) el 22 de enero:
“Deberíamos tomarnos muy en serio los avances de China”.
Los sistemas de IA aprenden utilizando datos de entrenamiento obtenidos a partir de datos humanos, lo que les permite generar resultados basados en las probabilidades de que aparezcan diferentes patrones en ese conjunto de datos de entrenamiento.
Para los grandes modelos lingüísticos, estos datos son textos. Por ejemplo, el GPT-3.5 de OpenAI, que se lanzó en 2023, se entrenó con unos 570 GB de datos de texto del repositorio Common Crawl, lo que equivale a unos 300.000 millones de palabras, extraídas de libros, artículos en línea, Wikipedia y otras páginas web.
Los modelos de razonamiento, como R1 y o1, son una versión mejorada de los LLM estándar que utilizan un método denominado “cadena de pensamiento” para retroceder y reevaluar su lógica, lo que les permite abordar tareas más complejas con mayor precisión.
Esto ha hecho que los modelos de razonamiento sean populares entre los científicos que buscan integrar la IA en su trabajo.
Modelo de “peso abierto”
Pero a diferencia del o1 de ChatGPT, DeepSeek es un modelo de “peso abierto” que (aunque sus datos de entrenamiento siguen siendo propiedad de la empresa) permite a los científicos echar un vistazo y modificar su algoritmo. Igual de importante es su precio reducido para los usuarios: 27 veces menos que o1.
Además de su rendimiento, la expectación en torno a DeepSeek se debe a su rentabilidad: el presupuesto reducido del modelo es minúsculo comparado con las decenas o cientos de millones que las empresas rivales gastan en entrenar a sus competidores.
Además, los controles de exportación de Estados Unidos, que limitan el acceso de las empresas chinas a los mejores chips informáticos de IA, obligaron a los desarrolladores de R1 a crear algoritmos más inteligentes y eficientes desde el punto de vista energético para compensar su falta de potencia de cálculo. Según los informes, ChatGPT necesitó 20.000 GPU de Nvidia para procesar sus datos de entrenamiento, mientras que los ingenieros de DeepSeek afirman que consiguieron resultados similares con sólo 2.000.
Está por ver hasta qué punto esto se traducirá en aplicaciones científicas y técnicas útiles, o si DeepSeek se ha limitado a entrenar su modelo para superar las pruebas de referencia, pero los científicos y los inversores en IA están muy atentos.
[FT: github]
¿Te gustó este contenido? Te invito a compartirlo con tus amigos. Síguenos en nuestra Página de Facebook, para recibir a diario nuestras noticias. También puedes unirte a nuestro Grupo Oficial y a nuestra comunidad en Telegram. Y si crees que hacemos un buen trabajo, considera apoyarnos.
Crédito imagen de portada: depositphotos.com
0 comentarios