75. 和OpenAI前研究员吴翼解读o1:吹响了开挖第二座金矿的号角

张小珺Jùn|商业访谈录

上集节目,广密在OpenAI o1问世之前,准确地预言了代号为“Strawberry”(草莓)的项目走向,以及它背后暗示的AGI范式已经转移,强化学习开启了新赛道。

这集节目录制在o1问世之后,我第一时间和边塞科技创始人、清华叉院信息研究院助理教授,同时也是前OpenAI研究员的吴翼聊了聊。他的研究方向正是强化学习。吴翼从技术视角全方位地解读了o1模型,并且分享了只有内部视角才能看见的真实的OpenAI。

我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)

  • 01:50 2019年在OpenAI做研究员
  • 03:04 那个年代所有PHD都希望去Google Brain和DeepMind
  • 03:46 OpenAI o1-preview初体验,很意外在用户使用端做这么大规模的推理
  • 07:20 pre-training(预训练)能挖的金矿越来越少,以强化学习为基础的post-training(后训练)是另一个大金矿,使迈向AGI的梯子多了几节
  • 09:00 o1-preview版本是GPT-3时刻,到没到ChatGPT时刻要看正式版本
  • 10:33 o1应该核心关注两个要点和背后的技术原理
  • 13:54 强化学习能否探索出Scaling Law有希望,但很复杂
  • 15:06 强化学习三要素:reward model+搜索和探索+prompt,每一块都很难
  • 16:42 2014年开始,UC Berkeley集体转向,押注强化学习
  • 19:36 RL算法的演进:从DQN(Deep Q-Network)到PPO(Proximal Policy Optimization)
  • 23:45 相信会带来通用能力而不是垂类能力提升
  • 24:47 长文本是实现AGI的第一步,推理能力是第二步
  • 29:57 通过o1-preview能反向复原哪些技术细节?
  • 34:00 reward model不太可能有一个单独的小组闭着眼睛训练,是耦合的
  • 38:30 思维链、安全、幻觉和算力
  • 41:25 为什么这么项目叫“Q*”?后来又叫“草莓”?梗都很有意思
  • 49:49 o1不代表垂直模型,依然相信会出现全能的大统一模型
  • 57:57 关于Scaling Law,2019年OpenAI内部讨论的细节
  • 01:00:26 2019年的OpenAI处于“闭着眼睛挖矿的状态”
  • 01:03:20 OpenAI当年如何做管理:搞大新闻、发博客,KPI是博客关注量
  • 01:10:28 2020年离开OpenAI后悔吗?

o1发布前的预言单集:AGI范式大转移:和广密预言草莓、OpenAI o1和self-play RL|全球大模型季报4

【更多信息】

联络我们:微博@张小珺-Benita,小红书@张小珺jùn

更多信息欢迎关注公众号:张小珺

To listen to explicit episodes, sign in.

Stay up to date with this show

Sign in or sign up to follow shows, save episodes, and get the latest updates.

Select a country or region

Africa, Middle East, and India

Asia Pacific

Europe

Latin America and the Caribbean

The United States and Canada