Impacto en el mercado del reciente lanzamiento del modelo de IA DeepSeek-R1 por parte del laboratorio chino DeepSeek. Este modelo ha generado debate debido a su eficiencia en el entrenamiento, utilizando una fracción del poder de cómputo en comparación con otros modelos de la competencia como el o1 de OpenAI o el Llama-3 de Meta. Los análisis a los que tenemos acceso todavía no tienen claro las implicaciones a corto y largo plazo para los fabricantes de hardware de IA, especialmente AMD y NVIDIA, y el impacto en la industria del internet en general. El modelo de Deepseek está generando la idea de menor necesidad de GPUs y poder de cómputo para alcanzar las mismas metas que otros LLM.
Avance de DeepSeek-R1
- DeepSeek-R1 es un modelo de razonamiento de código abierto que, según se informa, alcanza niveles de rendimiento similares al modelo o1 de OpenAI en algunas pruebas (matemáticas, codificación), pero con un costo de entrenamiento significativamente menor.
- El modelo se entrenó con un presupuesto de $6 millones (2,000 GPUs durante 2 meses o aproximadamente 3 millones de horas de GPU), en comparación con los 30 millones de horas de GPU utilizadas por Llama-3 de Meta.
- Los precios de uso de DeepSeek-R1 son significativamente más bajos que los de OpenAI o1 (entre 13 y 107 veces menos).
- DeepSeek es 100% propiedad de High-Flyer, un fondo cuantitativo impulsado por IA en China, creado en abril de 2023.
Impacto en el Hardware de IA
- A corto plazo, podría haber presión sobre los proveedores de GPU como NVDA/AMD, por la menor necesidad de cómputo para entrenar DeepSeek-R1.
- A largo plazo, no se espera un gran cambio en la demanda de cómputo y se ve el avance de DeepSeek como una aceleración en el ritmo de la IA e incluso un despliegue más rápido de la IA.
- El mercado está adoptando una primera respuesta VENDIENDO semiconductores/ centros de datos / electrificación y COMPRANDO compañías de internet por su potencial menor coste de inversión futura.
- La eficiencia de DeepSeek podría generar dudas sobre el retorno de la inversión en IA y llevar a una reevaluación de las necesidades de energía de computación, lo que podría causar una caída en el CAPEX de IA en 2026. "Re-evaluating computing power needs could cause 2026 AI capex to fall (or not grow)."
- En cualquier caso, DeepSeek depende de la tecnología de Nvidia NVLINK y CUDA.
Implicaciones para la Industria del Internet
- No hay un impacto a largo plazo en el gasto de los centros de datos de IA, ya que los participantes en la carrera por la AGI seguirán buscando tanto poder de cómputo como sea posible.
- Positivo para los proveedores de servicios en la nube (CSPs) ya que no necesitarán gastar tanto en CAPEX.
- Potencialmente neutral o positivo para los centros de datos si el volumen de datos se mantiene o aumenta con menores costos de CAPEX.
- Positivo para el software si ayuda a acelerar el ROI de la IA.
- Posiblemente positivo para los nombres de internet chinos como Alibaba y Tencent, ya que DeepSeek parece haber construido un modelo eficiente utilizando H800s.
- Para los nombres de internet de EE. UU., podría significar un menor gasto de capital.
Competencia y Estrategia
- La arquitectura de DeepSeek (MoE + MLA) y su estrategia de código abierto podrían acelerar la innovación en toda la industria. "Other AI companies will look at DeepSeek and learn from it.”
- La eficiencia del modelo de DeepSeek es un fuerte argumento a favor de enfocarse en el ROI de la IA.
¿Qué hacer?
- Seguir de cerca los comunicados de AMD, NVIDIA y otras compañías tecnológicas como ASML, TSMC o Intel en los próximos días y semanas.
- Evaluar el impacto potencial de las estrategias de eficiencia de DeepSeek en los planes de gasto en computación de los grandes jugadores de la IA.
- Estar atentos a la evolución del mercado de hardware para IA y los cambios en las demandas tecnológicas.
- Considerar un enfoque cauteloso hacia los fabricantes de hardware de IA a corto plazo, mientras se evalúa el impacto a largo plazo del desarrollo de DeepSeek.