1 時間47分

Sora 的惊喜与失望,「世界模型」的可能与想象|串台 OnBoard‪!‬ 此话当真

    • テクノロジー

距离 OpenAI 公开发布文生视频大模型「Sora」已过去十多天,但 Sora 引发的轰动与热议还远未平息。在上一期节目中,我们从身处一线的创业者、资深投资人视角出发,探讨了其背后的商业洞察与技术创新。
这一次,我们邀请到了两位硅谷顶尖 AI 研究员参与探讨,希望能从技术根源出发,理解和把握潮流本质。硬核科技,极致烧脑,准备好接受挑战了吗~
在本期节目中,我们还讨论了 Sora 的真正创新与局限是什么?Scaling Law 的暴力美学背后,还有哪些容易被忽略的技术细节?Sora对于产生我们期望的世界模型意味着什么?
【主持人】
谢岩 真格基金投资副总裁
【嘉宾】
Lijun Yu,卡内基梅隆大学人工智能领域的博士生,北京大学本科。CMU 导师是Alexander Hauptmann 博士,聚焦于多媒体的研究。曾在 Google Deepmind 工作。
Yao Fu,爱丁堡大学博士生,北京大学本科,哥伦比亚大学硕士。研究方向是人类语言的大规模生成模型,包括数据工程,复杂推理长上下文,以及模型背后的科学原理。开源社区 LLaMafia 创建人。
【本期要点】
03:05  Sora VS VideoPoet:胜在时长和分辨率
05:02  语言模型规模扩大之后:走向多模态基础模型的一大步
10:06  Sora 的核心贡献:高质量的数据集
12:25  新近研究结果:超长 transformer 或可在成本增长可控的情况下实现
17:37  compression network 为什么重要?学习空间的生成逻辑
22:44  Sora 的特别之处:diffusion denoising 的训练方式
27:57  Sora 与 GPT 结合的可能性
33:05  理想的「世界模型」要能够「预测未来」
38:02  大模型能够理解更多细分场景下的精细化规则
46:26  Sora 会是多大的模型?
58:47  Sora 能实现 In-Context Learning 吗?
01:05:49  10 秒长度的视频或许只要 1 分钟就能生成:推理速度的提升空间巨大
01:08:28  性能提升的门槛与初创公司的挑战
01:11:28  「有多少人工就有多少智能」
01:15:58  让聪明人去更新模型架构,还不如去清洗数据效果好
01:22:01  用合成数据做训练:大模型「活在」人造世界里
01:28:36  缺乏交互的情况下,「生成的多样性」可能被高估了
01:32:17  在算力相对不足的情况下实现模型效果,这才是有挑战的地方
01:37:45  论文被拒,却做出惊艳世界的产品:「大力出奇迹」VS 学术创新
01:39:32  硬件「突围」、融合战略、多模态交叉与「涌现」的想象力
【延伸阅读】
相关阅读:
OpenAI Sora 发布:背后的商业洞察与技术创新
提到的论文:
VideoPoet: A large language model for zero-shot video generation, by Lijun Yu
Scalable Diffusion Models with Transformer, by William Peebles, SainingXie
WALT: Photorealistic Video Generation with Diffusion Models, by LijunYu
World Model on Million-Length Video And Language With RingAttention
Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
ViViT: A Video Vision Transformer
相关资料:
VideoPoet: Google 于 2023 年底发布的专注于视频生成的大语言模型,能够执行各种视频生成任务。和绝大多数视频领域模型不同,VideoPoet 并没有走 diffusion 的路线,而是沿着 transformer 架构开发,将多个视频生成功能集成到单个 LLM 中,证实了 transformer 在视频生成任务上的极大潜力。
Encoder-Decoder:编码器与解码器。编码器将输入序列转换成一个固定长度的上下文向量。解码器从上下文向量中生成输出序列。
Scaling Law:在计算机科学和数学中,扩展定律(Scaling Law)是描述系统随着其规模的增长而发生的变化的定律。这些定律通常用于分析大规模系统的行为,尤其是在计算机科学中研究系统性能和效率时经常会用到。
Transformer:

距离 OpenAI 公开发布文生视频大模型「Sora」已过去十多天,但 Sora 引发的轰动与热议还远未平息。在上一期节目中,我们从身处一线的创业者、资深投资人视角出发,探讨了其背后的商业洞察与技术创新。
这一次,我们邀请到了两位硅谷顶尖 AI 研究员参与探讨,希望能从技术根源出发,理解和把握潮流本质。硬核科技,极致烧脑,准备好接受挑战了吗~
在本期节目中,我们还讨论了 Sora 的真正创新与局限是什么?Scaling Law 的暴力美学背后,还有哪些容易被忽略的技术细节?Sora对于产生我们期望的世界模型意味着什么?
【主持人】
谢岩 真格基金投资副总裁
【嘉宾】
Lijun Yu,卡内基梅隆大学人工智能领域的博士生,北京大学本科。CMU 导师是Alexander Hauptmann 博士,聚焦于多媒体的研究。曾在 Google Deepmind 工作。
Yao Fu,爱丁堡大学博士生,北京大学本科,哥伦比亚大学硕士。研究方向是人类语言的大规模生成模型,包括数据工程,复杂推理长上下文,以及模型背后的科学原理。开源社区 LLaMafia 创建人。
【本期要点】
03:05  Sora VS VideoPoet:胜在时长和分辨率
05:02  语言模型规模扩大之后:走向多模态基础模型的一大步
10:06  Sora 的核心贡献:高质量的数据集
12:25  新近研究结果:超长 transformer 或可在成本增长可控的情况下实现
17:37  compression network 为什么重要?学习空间的生成逻辑
22:44  Sora 的特别之处:diffusion denoising 的训练方式
27:57  Sora 与 GPT 结合的可能性
33:05  理想的「世界模型」要能够「预测未来」
38:02  大模型能够理解更多细分场景下的精细化规则
46:26  Sora 会是多大的模型?
58:47  Sora 能实现 In-Context Learning 吗?
01:05:49  10 秒长度的视频或许只要 1 分钟就能生成:推理速度的提升空间巨大
01:08:28  性能提升的门槛与初创公司的挑战
01:11:28  「有多少人工就有多少智能」
01:15:58  让聪明人去更新模型架构,还不如去清洗数据效果好
01:22:01  用合成数据做训练:大模型「活在」人造世界里
01:28:36  缺乏交互的情况下,「生成的多样性」可能被高估了
01:32:17  在算力相对不足的情况下实现模型效果,这才是有挑战的地方
01:37:45  论文被拒,却做出惊艳世界的产品:「大力出奇迹」VS 学术创新
01:39:32  硬件「突围」、融合战略、多模态交叉与「涌现」的想象力
【延伸阅读】
相关阅读:
OpenAI Sora 发布:背后的商业洞察与技术创新
提到的论文:
VideoPoet: A large language model for zero-shot video generation, by Lijun Yu
Scalable Diffusion Models with Transformer, by William Peebles, SainingXie
WALT: Photorealistic Video Generation with Diffusion Models, by LijunYu
World Model on Million-Length Video And Language With RingAttention
Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
ViViT: A Video Vision Transformer
相关资料:
VideoPoet: Google 于 2023 年底发布的专注于视频生成的大语言模型,能够执行各种视频生成任务。和绝大多数视频领域模型不同,VideoPoet 并没有走 diffusion 的路线,而是沿着 transformer 架构开发,将多个视频生成功能集成到单个 LLM 中,证实了 transformer 在视频生成任务上的极大潜力。
Encoder-Decoder:编码器与解码器。编码器将输入序列转换成一个固定长度的上下文向量。解码器从上下文向量中生成输出序列。
Scaling Law:在计算机科学和数学中,扩展定律(Scaling Law)是描述系统随着其规模的增长而发生的变化的定律。这些定律通常用于分析大规模系统的行为,尤其是在计算机科学中研究系统性能和效率时经常会用到。
Transformer:

1 時間47分

テクノロジーのトップPodcast

ゆるコンピュータ科学ラジオ
ゆるコンピュータ科学ラジオ
backspace.fm
backspace.fm
Rebuild
Tatsuhiko Miyagawa
Off Topic // オフトピック
Off Topic
Lex Fridman Podcast
Lex Fridman
Joi Ito's Podcast
伊藤穰一