48 min

S8Bonus | 抱歉，Sora 还不能称为「世界模拟器‪」‬ What's Next｜科技早知道

- Technology

过去一周，OpenAI 的首个文生视频模型 Sora 占据了各大媒体的头条，特别是他们号称是物理世界模拟器，让许多人惊掉下巴。本期节目，我们邀请到了在 Diffusion 模型领域有多年研究经验的中国人民大学副教授李崇轩、AI 连续创业者和成，从学界和业界的角度聊聊 Sora 背后硬核的技术原理、他们的瓶颈、商业化的想象空间，以及这是否是代表着人类离 AGI 又进了一大步。

短短一年时间内，Sora 为什么能在视频生成效果上实现质的飞跃？Sora 所采取的技术路线，其背后的原理是什么？和其他文生视频模型相比，Sora 的模型又有哪些优势和劣势？未来，Sora 的落地应用场景可能会有哪些？Sora 会继续沿用 ChatGPT 的商业模式吗？OpenAI 对 Sora「物理世界模拟器」的定位是否准确？ Sora 横空出世后，我们距离 AGI 还有多远？

这期节目我们聊了很多技术，在所难免很多的专业术语都是英文的表达，如果有没有听清楚的术语或者词汇可以在评论区和我们讨论。

全新付费播客「不止金钱」早鸟优惠价截止到元宵节！
我们在春节前推出的全新付费播客「不止金钱」上线仅四周就收获了相当多听友的认可，销量也大大超出了我们的预期，感谢大家！
新年新气象，我们也将原计划到 2 月 18 日结束的早鸟优惠价 99 元延长到元宵节，2 月 26 日再恢复到原价 129 元。希望「不止金钱」在新年的一年里也能帮助大家更好的应对工作和学习中的变化，让钱包和生活都变得确定。
点击链接查看「不止金钱」的节目简介、收听节目预告。

本期人物
李崇轩，中国人民大学高瓴人工智能学院副教授、博士生导师
和成，AI 连续创业者，Newcast.ai 创始人、YC Alumni

主要话题
[02:23] 聊聊看到 Demo 视频后的意料之外与情理之中
[03:58] Diffusion 和 Transformer 大家都在用，为什么只有 Sora 能生成 60s 的视频？
[10:53] Sora 训练用的数据可能部分来自游戏引擎生成？
[15:08] Sora 训练参数大猜测
[16:33] 文生视频领域不同技术路线的优劣对比
[20:41] 国内外大厂想要追赶 Sora，有哪些壁垒需要突破？
[24:18] Sora 模型的无奈：原理局限与数据瓶颈
[32:56] 对话生成还是新的 UI 界面： Sora 可能的商业化模式
[34:24] 文生视频消灭中间环节，渲染引擎结合 Sora 的想象空间？
[36:34] 距离用户端大规模用上 Sora 还有多久？
[39:03] 为什么说「Sora 是世界模拟器」不够准确？
[41:38] 融入传感器和检索，畅想「世界模拟器」的其他可能性
[44:13] Sora 让我们与 AGI 的距离更近一步？

关联阅读

通用人工智能离我们多远，大模型专家访谈｜S7E11 硅谷徐老师 x OnBoard！
- Sora 的演示视频和技术报告
被认为是 Sora 技术基础的一篇论文，由谢赛宁与 Sora 研发负责人合著
Patch 的技术论文
Pika 创始人回应 Sora 发布
彭博对 Sora 如何改变未来的猜想
Diffusion Transformer（DiT），是一种基于Transformer模型的扩散模型架构。扩散模型是一种生成模型，通过模拟数据的逐步去噪过程来生成新的样本。DiT架构采用了Transformer模型作为扩散模型的核心架构，而不是传统的卷积神经网络（如U-Net）。
W.A.L.T. ，Vision-Augmented Language Transformer是李飞飞教授和她的团队与谷歌合作开发的基于Transformer的潜在视频扩散模型，中文可以翻译为“视觉增强语言Transformer”。
隐空间（latent space）或者潜在空间（potential space），是机器学习模型中一个重要的概念，它指的是模型学习到的数据特征的抽象表示。在潜在空间中，每个数据点都对应着一个向量，该向量表示该数据点的特征。潜在空间的维度通常比原始数据