EP 67. 解析DeepSeek R1技术创新与生态影响:强化学习,Long CoT,数据,Agent与开源生态

OnBoard!

2025年第一期OnBoard! 让大家久等了!没错,这个话题我们怎么能绕的过去:Deepseek!

Deepseek 春节前夕发布的开源推理模型 Deepseek r1,无疑是整个世界最令人关注的新闻,不论你过去是否关注 AI,相信都已经被关于 Deepseek 的各种新闻和解读轰炸了好久。但是 OnBoard! 的硬核讨论,迟来却不过时。

Hello World, who is OnBoard!?

Deepseek R1 在数学、代码和各种推理能力比肩市面上最强的 OpenAI o1 正式版模型,同时又以其技术创新带来的极低的训练和推理成本,以及完全开源的特点,点燃了全世界对于推理模型,以及中国AI实力的关注。

在各种讨论的虚虚实实中,OnBoard! 一直想做的,就是找到尽可能全面和客观的视角,追寻到技术和创新的本质。于是,我们邀请到了横跨中美的一线研究员和从业者,跟大家聊聊:

  • 到底如何看待 Deepseek 一系列模型的创新?
  • 推理模型最核心的难点是什么?
  • DeepSeek 会对开源大模型生态带来哪些变化?

这次嘉宾也是站在学术和开源的前沿:

  • 有备受关注的、最早尝试复现 r1 能力的 TinyZero 项目的一作,
  • 有来自卡耐基梅隆大学研究推理最核心的 Long COT (Chain of Thoughts) 的研究员,
  • 还有返场嘉宾,前 Google Tensorflow 成员、Huggingface 社区资深贡献者。

他们从推理、COT、infra和开源几个角度,从技术本质到行业影响,兼顾发散和深度地畅聊关于 Deepseek 的已知和未知,过去与未来。相信已经非常饱和的各种信息中,还可以给大家带来一些启发。

需要说明的是,其中来自 SGlang 的嘉宾因为临时原因没有参与录制,与他的补录正好又是关于模型推理的专业话题,我们就决定放在下一期作为一个相对技术的 bonus episode. 很快会放出来,敬请期待!

毫不意外,这次讨论又是长达三个多小时。但是一定值得你的时间!Enjoy!

嘉宾介绍

  • Xiang Yue, 岳翔 (个人主页), Postdoc @CMU, 师从 Prof. Graham Neubig,专注于提升模型推理能力的前沿专家
  • Jiayi Pan, 潘家怡 (个人主页), PhD @Berkeley AI Research, 师从 Alane Suhr
  • Tiezhen Wang, Huggingface 资深工程师,前 Google Tensorflow 资深工程师
  • OnBoard! 主持:Monica(小红书/即刻:莫妮卡同学):美元VC投资人,前 AWS 硅谷团队+ AI 创业公司打工人,公众号M小姐研习录 (ID: MissMStudy) 主理人

PS 欢迎关注 Xiang Yue 最新的论文,Demystifying Long CoT Reasoning in LLMs(arxiv.org)关于 Long CoT 在模型推理能力中的作用有很有意思的发现!

我们都聊了什么

解析 DeepSeek R1 技术核心

03:34 几位嘉宾自我介绍,fun fact: DeepSeek R1 让你惊艳的使用场景是什么? 好的文笔是背诵还是理解?

17:53 如果用 RL 生产数据越来越重要,还需要人类标注数据吗?

23:52  DeepSeek R1-Zero 为什么值得关注?跟R1是什么关系?TinyZero 复现 R1 的过程中有什么启发?

35:11 为什么看似简单的 Long CoT 的做法,一直到现在才被广泛用起来?Long CoT 的研究沿革和进展是怎样的?

48:29 推理模型的 Aha Moment 是什么?跟模型的“涌现能力”有什么关系?

51:13 澄清一下!正确理解“成本30美金”!

52:36 Long CoT 的实现有什么难点?DeepSeek 做了哪些值得关注的创新?

58:33 做 Coding agent 的经验:模型 coding 能力能泛化到更广泛的 Agent 能力吗?

62:32 SFT 在R1 训练中的作用?RL生成数据成本会比人工标注低吗?

71:46 Scale up RL 的难点是什么?为什么说这是 DeepSeek infra能力中容易被忽视的点

74:08 开源社区的 infra 限制,会对复现后续研究 RL 和推理模型相关工作有什么影响?

79:57 为什么说 Rewards and Simulators are all you need:还有哪些挑战?

94:34 MoE vs Dense model 的选择:业界已经是共识了吗?

107:29 DeepSeek 蒸馏 OpenAI 的数据了吗?

112:14 OpenAI o3 思维链中出现了中文应该如何理解?

大模型开源生态会发生什么变化

115:52 开源大模型需要将数据开源吗?

123:01 开源和闭源模型的差距会一直存在吗?这个差距对于使用者和模型公司意味着什么?

127:44 未来开源推理模型都会向 DeepSeek R1 的路线上收敛吗?对开源生态会有怎样的影响?

131:36 从 DeepSeek V3 到 R1, 有了基座模型训练推理模型,只需要几周的时间吗?

132:59 开发者选择开源还是闭源模型,有怎样的考量?今年开源大模型生态有哪些变化值得期待?

142:13 如何理解:Agentic workflow 只有短期价值,长期会被模型能力取代?Agent 公司的核心能力是什么?

未来展望与宏观思考

149:30 2025年,几位嘉宾的工作重点是什么?

155:22 AI 领域有什么过热的以及还没有被充分讨论的话题?

160:36 过去半年有什么观点的变化?

164:08 AI超越大部分人类智能的时候,你的生存意义是什么?

重点词汇

  • Reinforcement Learning
  • Chain of Thoughts
  • SFT
  • MoE
  • Dense model
  • Agentic workflow

参考文章

  • Xiang 最新的论文:Demystifying Long CoT Reasoning in LLMs
  • TinyZero: github.com
  • Deepseek
    V3: github.com
    R1: github.com
    R1 zero: arxiv.org
    mp.weixin.qq.com万字解析DeepSeek 成长史
  • www.latent.space
  • semianalysis.com
  • arcprize.org

欢迎关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!

M小姐研习录 (ID: MissMStudy)

欢迎在评论区留下你的思考,与听友们互动。喜欢 OnBoard! 的话,也可以点击打赏,请我们喝一杯咖啡!如果你用 Apple Podcasts 收听,也请给我们一个五星好评,这对我们非常重要。

最后!快来加入Onboard!听友群,结识到高质量的听友们,我们还会组织线下主题聚会,开放实时旁听播客录制,嘉宾互动等新的尝试。添加任意一位小助手微信,onboard666, 或者 Nine_tunes,小助手会拉你进群期待你来!

للاستماع إلى حلقات ذات محتوى فاضح، قم بتسجيل الدخول.

اطلع على آخر مستجدات هذا البرنامج

قم بتسجيل الدخول أو التسجيل لمتابعة البرامج وحفظ الحلقات والحصول على آخر التحديثات.

تحديد بلد أو منطقة

أفريقيا والشرق الأوسط، والهند

آسيا والمحيط الهادئ

أوروبا

أمريكا اللاتينية والكاريبي

الولايات المتحدة وكندا