晚点聊 LateTalk

ICCV最佳论文、光年之外、Sand.ai:曹越十年AI之旅,从研究者到CEO

「从模型驱动到垂直整合:Gaga-1 是第一个产物。」


图注:飞书“智能会议纪要”功能为本次播客生成的概要图。

本期节目由飞书特别支持播出!欢迎大家尝试“智能会议纪要”(https://www.feishu.cn/product/ai-meeting-summary?hideHeader=1&utm_from=latetalk),功能,点击前文晚点转述链接,可申请 1 个月免费使用。

2024 年初,刚听说曹越开始新一次创业时,我就找他聊过一次。那时他有一个吸引科技报道者的标签:光年之外联创。

今年 10 月的这次正式访谈中,我有点儿理解了为什么王慧文在 2023 年初见了那么多研究者后,会选择曹越来做技术合伙人——曹越是少数在 ChatGPT 之前,预判到大模型热潮的中国研究者。2021 年,他拿下 ICCV 最佳论文后,离开了微软亚研院,加入了国内最早做大模型的机构,智源研究院。

让我稍感意外的是,曹越做研究员时,就格外关注组织与机制;2021 年,在看到 DALL-E 和 CLIP 后,他开始研究 OpenAI 是怎么协作的,这也是他加入智源的原因之一。

这期节目,曹越回顾了他在清华读本科时,如何看到深度学习,那篇 ICCV 最佳论文的诞生;他从研究员到创业者的转变;对 Sora 的观察,以及 Sand.ai 打造新一代模型 Gaga-1 的思考与实践。

通过学习 OpenAI 等全球顶尖公司,更重要的是通过自己的实践和反馈,曹越现在的认知是,要做一个垂直整合的“端到端”的组织,更好平衡模型进展与从需求出发,10 月中旬 Sand.ai 新发布的模型 Gaga-1 就是垂直整合的产物。它聚焦解决人物表演问题,“人物不一致、表演假”,是许多试图使用 AI 的内容制作者之前最大的痛点。


图注:在 Gaga AI 网站 (https://gaga.art/zh/app) 上,现在可体验音画同出、聚焦人物表演能力的视频生成

在技术驱动的 AI 创业时代,一个模型出身的创始人,如何判断趋势,又怎么学习做 CEO?曹越分享了他的探索和体验。

本期嘉宾:曹越,Sand.ai 创始人兼 CEO
本期主播:程曼祺,《晚点 LatePost》科技报道负责人


**本期播客也有视频版,可在抖音、B站、小红书、视频号搜索《晚点 LatePost》观看。*

时间线跳转:
-从 ICCV 最佳论文到研究 OpenAI 组织力:设计一个系统,最大化压榨算力
02:08 2014 年转向深度学习
03:37 在微软亚研院学到的-1:关注最重要、且有提升空间的 topic
05:09 Swin Transfomer 的诞生,Transformer 被引入视觉任务的两个阶段
11:15 在微软亚研院学到的-2:判断 topic 还不够,得以足够资源做出极致效果
13:02 CLIP、DALL·E 冲击:OpenAI 不是论文驱动,而是设计一个系统,最大化压榨算力
18:10 从 GPT-3 到 ChatGPT,3 年疫情阻隔使 OpenAI 巨变被忽略

-中国为什么没有出现 OpenAI 这样的组织?王慧文说是“不够富”
21:30 和王慧文、梁文锋聊;他们都在 23 年初遍历国内研究者
26:57 问老王:为什么中国没有出现 OpenAI?——“不够富”
32:54 光年之外的经验:一开始就确立了正确的“找人方法论”
34:36 CEO 容易焦虑,这时可以想想大问题

-“真的了解创业后,突然感觉什么都对了”
37:16 23 年 8 月开始思考创业:视频生成让自己兴奋
40:54 创业前的自我觉察:ambitious
46:59 第一个模型 Magi-1 花了 1 年多:低估了自回归路线的难度
50:23 正在发生的业务窗口是“音画同出”

-“Sora 2 是一个端到端的模型,OpenAI 是一个端到端的组织”
52:36 Sora 2 的 3 个特点,第三点最让曹越惊艳
58:23 Sora 2 怎么实现“端到端叙事”的?
01:03:58 Vibes vs Sora,Meta 是缝合,OpenAI 是整合

-Gaga-1:从需求出发,优先解决人物表演
01:06:53 新模型 Gaga-1 聚焦人物表演,成本大幅下降
01:10:33 用 AI 做短剧,卡点正在人物表演和成本;Sora 的新启发是叙事
01:15:27 需求分析:短剧制作、广告片、C 端斗视频
01:19:42 Sora 能否成为 C 端新平台?曹越的两个判断指标

-垂直整合组织的核心就是:不同背景的人,能对齐上下文
01:23:10 PMF 一直讲,一直难:因为模型和产品的磨合就是要花时间
01:28:07 垂直整合:不同背景的人频繁交流,对齐上下文
01:31:16 再看“模型即产品”:早期产品跟着模型走,现在要互相放大

-成为 CEO
01:38:41 一个“专业”的 CEO
01:42:04 “Gemini 老师”的最大作用是对齐上下文
01:50:27 所有内容的终局都是“叙事”
01:52:29 老王的建议:研究皮克斯商业模式
01:56:06 研究者和 CEO 的“夹角”
01:58:24 最优先级的工作
02:01:01 Next Question:ASI 到来后会怎样

02:03:12 连点成线:往期推荐

相关链接:
晚点聊 136:《Sora新世界 & Lovart 4个月复盘 | 与陈冕聊怎么做垂类Agent|Agent#5》

晚点聊 58:《光年之外联创再出发,与袁进辉聊 AI Infra 到底做什么?》

晚点聊 39:《从美团收购光年之外,聊聊科技公司收并购的操作与故事》

附录:
CNN(卷积神经网络):由 Yann LeCun(杨立昆) 等人在 1989 年提出,用于从图像等网格数据中提取局部特征,是深度学习在计算机视觉领域的基础架构。
Transformer:由 Google Brain 在 2017 年 提出,用“自注意力机制”替代循环结构,实现了高效的并行训练,成为目前大模型的核心架构。
iGPT(Image GPT):由 OpenAI 在 2020 年提出,将 GPT 语言建模思想用于图像像素预测,验证了 Transformer 可用于视觉生成任务。
ViT(Vision Transformer):由 Google Research 在 2020 年提出,将图像分割为小块后输入 Transformer,首次在大规模数据上超越 CNN 的图像识别性能。
Swin Transformer:由微软亚洲研究院刘泽、曹越等人在 2021 年提出,通过“层次化窗口注意力”结构改进 ViT,使 Transformer 能高效处理不同尺度的视觉任务。
DALL·E:由 OpenAI 在 2021 年 发布,将 GPT-3 与图像生成结合,可根据文字生成符合语义的图像。
CLIP:由 OpenAI 在 2021 年提出,通过大规模图文对比学习,实现文本与图像的语义对齐,是后续多模态系统的基础模型之一。
Instruct-GPT:由 OpenAI 在 2022 年 发布,通过基于人类反馈的强化学习(RLHF)让 GPT-3 更好理解指令,是 ChatGPT 产品化的重要前提。

剪辑制作:甜食

本期主播:
小红书@曼祺_火柴Q即刻@曼祺_火柴Q

☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆

欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。

请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。

关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: