1 時間47分

Sora 的惊喜与失望，「世界模型」的可能与想象｜串台 OnBoard‪!‬ 此话当真

- テクノロジー

距离 OpenAI 公开发布文生视频大模型「Sora」已过去十多天，但 Sora 引发的轰动与热议还远未平息。在上一期节目中，我们从身处一线的创业者、资深投资人视角出发，探讨了其背后的商业洞察与技术创新。
这一次，我们邀请到了两位硅谷顶尖 AI 研究员参与探讨，希望能从技术根源出发，理解和把握潮流本质。硬核科技，极致烧脑，准备好接受挑战了吗~
在本期节目中，我们还讨论了 Sora 的真正创新与局限是什么？Scaling Law 的暴力美学背后，还有哪些容易被忽略的技术细节？Sora对于产生我们期望的世界模型意味着什么？
【主持人】
谢岩真格基金投资副总裁
【嘉宾】
Lijun Yu，卡内基梅隆大学人工智能领域的博士生，北京大学本科。CMU 导师是Alexander Hauptmann 博士，聚焦于多媒体的研究。曾在 Google Deepmind 工作。
Yao Fu，爱丁堡大学博士生，北京大学本科，哥伦比亚大学硕士。研究方向是人类语言的大规模生成模型，包括数据工程，复杂推理长上下文，以及模型背后的科学原理。开源社区 LLaMafia 创建人。
【本期要点】
03:05 Sora VS VideoPoet：胜在时长和分辨率
05:02 语言模型规模扩大之后：走向多模态基础模型的一大步
10:06 Sora 的核心贡献：高质量的数据集
12:25 新近研究结果：超长 transformer 或可在成本增长可控的情况下实现
17:37 compression network 为什么重要？学习空间的生成逻辑
22:44 Sora 的特别之处：diffusion denoising 的训练方式
27:57 Sora 与 GPT 结合的可能性
33:05 理想的「世界模型」要能够「预测未来」
38:02 大模型能够理解更多细分场景下的精细化规则
46:26 Sora 会是多大的模型？
58:47 Sora 能实现 In-Context Learning 吗？
01:05:49 10 秒长度的视频或许只要 1 分钟就能生成：推理速度的提升空间巨大
01:08:28 性能提升的门槛与初创公司的挑战
01:11:28 「有多少人工就有多少智能」
01:15:58 让聪明人去更新模型架构，还不如去清洗数据效果好
01:22:01 用合成数据做训练：大模型「活在」人造世界里
01:28:36 缺乏交互的情况下，「生成的多样性」可能被高估了
01:32:17 在算力相对不足的情况下实现模型效果，这才是有挑战的地方
01:37:45 论文被拒，却做出惊艳世界的产品：「大力出奇迹」VS 学术创新
01:39:32 硬件「突围」、融合战略、多模态交叉与「涌现」的想象力
【延伸阅读】
相关阅读：
OpenAI Sora 发布：背后的商业洞察与技术创新
提到的论文：
VideoPoet: A large language model for zero-shot video generation, by Lijun Yu
Scalable Diffusion Models with Transformer, by William Peebles, SainingXie
WALT: Photorealistic Video Generation with Diffusion Models, by LijunYu
World Model on Million-Length Video And Language With RingAttention
Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
ViViT: A Video Vision Transformer
相关资料：
VideoPoet： Google 于 2023 年底发布的专注于视频生成的大语言模型，能够执行各种视频生成任务。和绝大多数视频领域模型不同，VideoPoet 并没有走 diffusion 的路线，而是沿着 transformer 架构开发，将多个视频生成功能集成到单个 LLM 中，证实了 transformer 在视频生成任务上的极大潜力。
Encoder-Decoder：编码器与解码器。编码器将输入序列转换成一个固定长度的上下文向量。解码器从上下文向量中生成输出序列。
Scaling Law：在计算机科学和数学中，扩展定律（Scaling Law）是描述系统随着其规模的增长而发生的变化的定律。这些定律通常用于分析大规模系统的行为，尤其是在计算机科学中研究系统性能和效率时经常会用到。
Transformer：