Jim Fan, Director Senior de Investigación de NVIDIA, elogia a DeepSeek R1: Una verdadera encarnación de la misión de la IA de código abierto

Reconocimiento de Experto

Jim Fan, Director Senior de Investigación de NVIDIA, compartió recientemente su evaluación detallada de DeepSeek R1 en redes sociales. Como cofundador de GEAR Lab, líder del Proyecto GR00T, doctor por Stanford y primer pasante de OpenAI, las perspectivas de Fan tienen un peso significativo en la industria. Destacó especialmente las sobresalientes contribuciones de DeepSeek al desarrollo de la IA de código abierto como empresa no estadounidense.

Heredero del Espíritu de Código Abierto

En su comentario, Fan señaló: "Vivimos en una línea temporal donde una empresa no estadounidense mantiene viva la misión original de OpenAI - investigación verdaderamente abierta y de frontera que empodera a todos. No tiene sentido, pero el resultado más entretenido suele ser el más probable." Particularmente apreció que DeepSeek no solo libera una serie de modelos en código abierto, sino que también revela todos los secretos del entrenamiento.

Análisis Profundo de las Innovaciones Técnicas

Después de leer cuidadosamente el artículo técnico de DeepSeek R1, Fan destacó varios avances técnicos clave:

Enfoque de Aprendizaje por Refuerzo Puro:
- Emplea un método de "arranque en frío", impulsado puramente por RL, sin SFT en absoluto
- Recuerda al avance de AlphaZero en dominar Go, Shogi y Ajedrez desde cero
- Considerado el hallazgo más significativo del artículo
Mecanismo Innovador de Recompensas:
- Utiliza recompensas reales calculadas por reglas codificadas
- Evita los modelos de recompensa aprendidos que RL puede hackear fácilmente
Evolución del Tiempo de Pensamiento:
- El tiempo de pensamiento del modelo aumenta constantemente a medida que avanza el entrenamiento
- Esta es una propiedad emergente, no un comportamiento preprogramado
Innovación del Algoritmo GRPO:
- Elimina la red crítica de PPO
- Utiliza en su lugar el promedio de recompensas de múltiples muestras
- Método simple para reducir el uso de memoria
- Notablemente, GRPO fue inventado por DeepSeek en febrero de 2024

Nuevo Paradigma de Impacto Técnico

Fan señaló específicamente que el impacto en IA se puede lograr de diferentes maneras: "El impacto se puede lograr mediante 'ASI logrado internamente' o nombres míticos como 'Proyecto Strawberry'. El impacto también se puede lograr simplemente volcando los algoritmos crudos y las curvas de aprendizaje matplotlib." Esta perspectiva enfatiza la importancia de la apertura y la transparencia.

Ejemplo de Innovación Sostenida

En opinión de Fan, DeepSeek es quizás el primer proyecto de código abierto que muestra un crecimiento importante y sostenido de un volante de RL. Este progreso técnico continuo y actitud abierta establecen un importante punto de referencia para toda la comunidad de IA.

Conclusión

La evaluación de Jim Fan no solo afirma los logros técnicos de DeepSeek R1, sino que también enfatiza sus importantes contribuciones a la democratización de la IA y al espíritu del código abierto. Como autoridad en la industria, su reconocimiento confirma aún más la importante posición de DeepSeek en el panorama global de la IA.

Para explorar las innovaciones de DeepSeek R1 por ti mismo, visita DeepSeek R1 Chat.