分享
万字长文:DeepSeek 647天铸就的登神长阶
输入“/”快速插入内容
🍵
万字长文:DeepSeek 647天铸就的登神长阶
用户5849
2025年3月25日修改
更新记录:2025.02.19,之前对
Auxiliary-Loss-Free
的翻译错了,导致理解偏差。这不是“无损失的意思”,
Auxiliary-Loss
是辅助损失,即通过在模型的训练主目标LOSS外,附加辅助LOSS以训练解决负载均衡问题。
所以正确的翻译应该是:“不使用辅助损失的MoE负载均衡策略”,感谢知乎上
吉王义昊
的批评指正。
过完元宵节从老家回到深圳,我用三天时间,读完了Deepseek在LLM领域的13篇论文,从里面发现了一些细节,分享给你们。
首先
,震惊世界的R1,不是一日铸就的,里面用到了很多过去项目中独创的技术突破。
其中一些突破在逐步验证后,反复迭代升级,最终成为了R1的牢固基石,例如他们当前所用的MoE框架,经历了四次升级。又比如GRPO,最开始其实是在一个数学模型,DeepSeek-Math-7B上首次提出的。
当然也有一些技术选择或技术突破,他们在后续工作应用时失败了,或者放弃了。例如令牌丢弃策略,例如他们提出的RMaxTS(蒙特卡洛树变体)。
所有13篇论文组成了
我眼中的“登神长阶”
,这里面每个台阶都是极其坚固和富有创意的。我相信这条登神之路,远远未到终点。
其次
,从论文的非技术部分我还发现了一些有趣的地方。可以用来佐证外界所传言的DeepSeek独特公司文化。
最后,
关于内容的专业性和友好性问题。我会尽力做不失精确的科普。但由于以下限制:1)部分技术内容需要大量前置知识,展开说明篇幅会爆炸;2)我自身不可避免带有知识诅咒;3)我个人的技术理解偏差。所以只能说尽可能保证精确和科普友好。
如果有看不懂的概念,建议使用这个prompt问问DeepSeek-R1:
接下来我的内容将按时间线组织,以论文为核心主线,但也会少量穿插一些重要事件(特别是开头)。
论文中出现的技术创新点,我会尽可能用通俗科普的方式解释清楚。但我不希望这篇内容过长,所以如果需要查看完整的亮点和科普内容,请移步这13篇论文的翻译&注释文档。
DeepSeek的647天
23年4月14日,开始
DeepSeek前身幻方量化在公众号发布文章
幻方新征程
,宣布将以
研究组织
的形式投入AGI征程
文章引文——“务必要疯狂地拥抱雄心,同时要疯狂地真诚”
文章阅读量8387,剔除其过去旧用户日均的3000阅读,可以说除了AI核心圈的人士,几乎无人知晓。
这一天离ChatGPT发布135天,离DeepSeek-R1发布647天。
23年5月24日,官宣
暗涌采访了DeepSeek梁文峰,在公众号发布
疯狂的幻方:一家隐形AI巨头的大模型之路
网络上关于这篇文章的解读非常多,我就不重复阐述了,感兴趣的可以看看原文
大家可以分享一下最喜欢哪句话。我喜欢的可能和多数人不太一样,是下面这句
“
我们希望更多人,哪怕一个小 app都可以低成本去用上大模型,而不是技术只掌握在一部分人和公司手中,形成垄断
”
这篇文章标志着DeepSeek的筹备接近完成,梁文峰开始认真招人了。
相近的时间线上,ChatGPT IOS版在5月18日发布,迅速登上TOP1。
这一天距离R1发布607天。
23年7月17日,公司成立
DeepSeek注册成立,全称杭州深度求索
人工智能基础技术
研究
有限公司
。
很多人可能是第一次看到这个公司的全称。是的,DeepSeek是DeepSeek,AI六小龙是AI六小龙,他们是不一样的公司。
这一天距离R1发布553天。
23年10月25日,第一篇论文
DeepSeek发布论文:
DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior
,支持从图像生成3D模型。这篇论文中的7位作者后来有6位出现在了DeepSeek Visual系列模型中。
这也是唯一我没有深入阅读的DeepSeek论文,因为看起来他只和图像有关,与LLM没有太大关系。我也不清楚为什么这个方向是DeepSeek的第一篇论文。
这也是DeepSeek在X上注册后发布的第一条公告信息
Introducing #DreamCraft3D
这一天距离R1发布453天。
但接下来,真正的狂飙开始了!
你将看到DeepSeek是如何一步步打磨他们的技术栈,并创造出R1这样的惊艳产品。