🍵
万字长文：DeepSeek 647天铸就的登神长阶

用户5849

2025年3月25日修改

更新记录：2025.02.19，之前对Auxiliary-Loss-Free的翻译错了，导致理解偏差。这不是“无损失的意思”，Auxiliary-Loss是辅助损失，即通过在模型的训练主目标LOSS外，附加辅助LOSS以训练解决负载均衡问题。​

所以正确的翻译应该是：“不使用辅助损失的MoE负载均衡策略”，感谢知乎上吉王义昊的批评指正。

过完元宵节从老家回到深圳，我用三天时间，读完了Deepseek在LLM领域的13篇论文，从里面发现了一些细节，分享给你们。​

首先，震惊世界的R1，不是一日铸就的，里面用到了很多过去项目中独创的技术突破。​

其中一些突破在逐步验证后，反复迭代升级，最终成为了R1的牢固基石，例如他们当前所用的MoE框架，经历了四次升级。又比如GRPO，最开始其实是在一个数学模型，DeepSeek-Math-7B上首次提出的。​

当然也有一些技术选择或技术突破，他们在后续工作应用时失败了，或者放弃了。例如令牌丢弃策略，例如他们提出的RMaxTS（蒙特卡洛树变体）。​

所有13篇论文组成了我眼中的“登神长阶”，这里面每个台阶都是极其坚固和富有创意的。我相信这条登神之路，远远未到终点。​

其次，从论文的非技术部分我还发现了一些有趣的地方。可以用来佐证外界所传言的DeepSeek独特公司文化。​

最后，关于内容的专业性和友好性问题。我会尽力做不失精确的科普。但由于以下限制：1）部分技术内容需要大量前置知识，展开说明篇幅会爆炸；2）我自身不可避免带有知识诅咒；3）我个人的技术理解偏差。所以只能说尽可能保证精确和科普友好。​

如果有看不懂的概念，建议使用这个prompt问问DeepSeek-R1:

接下来我的内容将按时间线组织，以论文为核心主线，但也会少量穿插一些重要事件（特别是开头）。​

论文中出现的技术创新点，我会尽可能用通俗科普的方式解释清楚。但我不希望这篇内容过长，所以如果需要查看完整的亮点和科普内容，请移步这13篇论文的翻译&注释文档。​

DeepSeek的647天

23年4月14日，开始

DeepSeek前身幻方量化在公众号发布文章幻方新征程，宣布将以研究组织的形式投入AGI征程

文章引文——“务必要疯狂地拥抱雄心，同时要疯狂地真诚”​

文章阅读量8387，剔除其过去旧用户日均的3000阅读，可以说除了AI核心圈的人士，几乎无人知晓。​

这一天离ChatGPT发布135天，离DeepSeek-R1发布647天。

23年5月24日，官宣

网络上关于这篇文章的解读非常多，我就不重复阐述了，感兴趣的可以看看原文​

大家可以分享一下最喜欢哪句话。我喜欢的可能和多数人不太一样，是下面这句​

“我们希望更多人，哪怕一个小 app都可以低成本去用上大模型，而不是技术只掌握在一部分人和公司手中，形成垄断”​

这篇文章标志着DeepSeek的筹备接近完成，梁文峰开始认真招人了。​

相近的时间线上，ChatGPT IOS版在5月18日发布，迅速登上TOP1。

这一天距离R1发布607天。

23年7月17日，公司成立

DeepSeek注册成立，全称杭州深度求索人工智能基础技术研究有限公司。​

很多人可能是第一次看到这个公司的全称。是的，DeepSeek是DeepSeek，AI六小龙是AI六小龙，他们是不一样的公司。​

这一天距离R1发布553天。

23年10月25日，第一篇论文

DeepSeek发布论文：DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior，支持从图像生成3D模型。这篇论文中的7位作者后来有6位出现在了DeepSeek Visual系列模型中。

这也是唯一我没有深入阅读的DeepSeek论文，因为看起来他只和图像有关，与LLM没有太大关系。我也不清楚为什么这个方向是DeepSeek的第一篇论文。​

这也是DeepSeek在X上注册后发布的第一条公告信息Introducing #DreamCraft3D

这一天距离R1发布453天。

但接下来，真正的狂飙开始了！

你将看到DeepSeek是如何一步步打磨他们的技术栈，并创造出R1这样的惊艳产品。​