76. 王小川返场谈o1与强化学习:摸到了一条从快思考走向慢思考的路

张小珺Jùn|商业访谈录

在过去两集节目中,关于OpenAI o1和AGI范式转移,我们先是推出了一集预言,之后推出了一集解析。在一个新范式来临的临界点上,我们希望听到更多来自业界不同视角的声音。哪怕这些声音是切片的、冲突的,我们都希望当做一种记忆和留存收集起来。

今天这期是王小川的返场。

王小川在创业开始就关注到强化学习并且很早开始公开谈论。他曾说,大模型代表快思考,它叫“学”;强化学习是慢思考,它叫“思”。“学”和“思”两个系统最终会走向融合。除了o1,王小川也聊了聊强化学习在一个特定场景——医疗——中的应用。

我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)

  • 01:30 大模型是“学而不思则罔”,强化学习是“思而不学则殆”
  • 03:45 Sam Altman被宫斗下课与强化学习大神Noam Brown的动态
  • 05:45 OpenAI o1是范式升级,摸到了一条从快思考走向慢思考的道路
  • (DIKW模型:Data – Information – Knowledge – Wisdom)
  • 08:18 怎么看o1隐藏思维过程,有人破解o1思维链会被警告要封号?
  • 09:04 从以语言为核心走向思维链,分两阶段运行增加泛化性
  • 11:38 强化学习 vs 监督学习
  • 16:39 除了数学和代码以外,医疗是可以用强化学习提升的领域
  • 19:55 之前做强化学习实验没有CoT(思维链),今天更强调CoT了
  • 22:16 复现o1 vs 复现GPT-4
  • 26:30 未来几年将从强化学习范式走向写代码解决问题新范式
  • 28:35 做“水涨船高的应用”,不只是“沿途下蛋的应用”
  • 31:35 创业公司要走出大厂射程,在射程内你是没什么好活的

【更多信息】

联络我们:微博@张小珺-Benita,小红书@张小珺jùn

更多信息欢迎关注公众号:张小珺

للاستماع إلى حلقات ذات محتوى فاضح، قم بتسجيل الدخول.

اطلع على آخر مستجدات هذا البرنامج

قم بتسجيل الدخول أو التسجيل لمتابعة البرامج وحفظ الحلقات والحصول على آخر التحديثات.

تحديد بلد أو منطقة

أفريقيا والشرق الأوسط، والهند

آسيا والمحيط الهادئ

أوروبا

أمريكا اللاتينية والكاريبي

الولايات المتحدة وكندا