48 min

S8Bonus | 抱歉,Sora 还不能称为「世界模拟器‪」‬ What's Next|科技早知道

    • Technology

过去一周,OpenAI 的首个文生视频模型 Sora 占据了各大媒体的头条,特别是他们号称是物理世界模拟器,让许多人惊掉下巴。本期节目,我们邀请到了在 Diffusion 模型领域有多年研究经验的中国人民大学副教授李崇轩、AI 连续创业者和成,从学界和业界的角度聊聊 Sora 背后硬核的技术原理、他们的瓶颈、商业化的想象空间,以及这是否是代表着人类离 AGI 又进了一大步。


短短一年时间内,Sora 为什么能在视频生成效果上实现质的飞跃?Sora 所采取的技术路线,其背后的原理是什么?和其他文生视频模型相比,Sora 的模型又有哪些优势和劣势?未来,Sora 的落地应用场景可能会有哪些?Sora 会继续沿用 ChatGPT 的商业模式吗?OpenAI 对 Sora「物理世界模拟器」的定位是否准确? Sora 横空出世后,我们距离 AGI 还有多远?


这期节目我们聊了很多技术,在所难免很多的专业术语都是英文的表达,如果有没有听清楚的术语或者词汇可以在评论区和我们讨论。


全新付费播客「不止金钱」早鸟优惠价截止到元宵节!
我们在春节前推出的全新付费播客「不止金钱」上线仅四周就收获了相当多听友的认可,销量也大大超出了我们的预期,感谢大家!
新年新气象,我们也将原计划到 2 月 18 日结束的早鸟优惠价 99 元延长到元宵节,2 月 26 日再恢复到原价 129 元。希望「不止金钱」在新年的一年里也能帮助大家更好的应对工作和学习中的变化,让钱包和生活都变得确定。
点击链接查看「不止金钱」的节目简介、收听节目预告。


本期人物
李崇轩,中国人民大学高瓴人工智能学院副教授、博士生导师
和成,AI 连续创业者,Newcast.ai 创始人、YC Alumni


主要话题
[02:23] 聊聊看到 Demo 视频后的意料之外与情理之中
[03:58] Diffusion 和 Transformer 大家都在用,为什么只有 Sora 能生成 60s 的视频?
[10:53] Sora 训练用的数据可能部分来自游戏引擎生成?
[15:08] Sora 训练参数大猜测
[16:33] 文生视频领域不同技术路线的优劣对比
[20:41] 国内外大厂想要追赶 Sora,有哪些壁垒需要突破?
[24:18] Sora 模型的无奈:原理局限与数据瓶颈
[32:56] 对话生成还是新的 UI 界面: Sora 可能的商业化模式
[34:24] 文生视频消灭中间环节,渲染引擎结合 Sora 的想象空间?
[36:34] 距离用户端大规模用上 Sora 还有多久?
[39:03] 为什么说「Sora 是世界模拟器」不够准确?
[41:38] 融入传感器和检索,畅想「世界模拟器」的其他可能性
[44:13] Sora 让我们与 AGI 的距离更近一步?


关联阅读



通用人工智能离我们多远,大模型专家访谈 |S7E11 硅谷徐老师 x OnBoard!
- Sora 的演示视频和技术报告
被认为是 Sora 技术基础的一篇论文,由谢赛宁与 Sora 研发负责人合著
Patch 的技术论文
Pika 创始人回应 Sora 发布
彭博对 Sora 如何改变未来的猜想
Diffusion Transformer(DiT),是一种基于Transformer模型的扩散模型架构。扩散模型是一种生成模型,通过模拟数据的逐步去噪过程来生成新的样本。DiT架构采用了Transformer模型作为扩散模型的核心架构,而不是传统的卷积神经网络(如U-Net)。
W.A.L.T. ,Vision-Augmented Language Transformer是李飞飞教授和她的团队与谷歌合作开发的 基于Transformer的潜在视频扩散模型,中文可以翻译为“视觉增强语言Transformer”。
隐空间(latent space)或者潜在空间(potential space),是机器学习模型中一个重要的概念,它指的是模型学习到的数据特征的抽象表示。在潜在空间中,每个数据点都对应着一个向量,该向量表示该数据点的特征。潜在空间的维度通常比原始数据

过去一周,OpenAI 的首个文生视频模型 Sora 占据了各大媒体的头条,特别是他们号称是物理世界模拟器,让许多人惊掉下巴。本期节目,我们邀请到了在 Diffusion 模型领域有多年研究经验的中国人民大学副教授李崇轩、AI 连续创业者和成,从学界和业界的角度聊聊 Sora 背后硬核的技术原理、他们的瓶颈、商业化的想象空间,以及这是否是代表着人类离 AGI 又进了一大步。


短短一年时间内,Sora 为什么能在视频生成效果上实现质的飞跃?Sora 所采取的技术路线,其背后的原理是什么?和其他文生视频模型相比,Sora 的模型又有哪些优势和劣势?未来,Sora 的落地应用场景可能会有哪些?Sora 会继续沿用 ChatGPT 的商业模式吗?OpenAI 对 Sora「物理世界模拟器」的定位是否准确? Sora 横空出世后,我们距离 AGI 还有多远?


这期节目我们聊了很多技术,在所难免很多的专业术语都是英文的表达,如果有没有听清楚的术语或者词汇可以在评论区和我们讨论。


全新付费播客「不止金钱」早鸟优惠价截止到元宵节!
我们在春节前推出的全新付费播客「不止金钱」上线仅四周就收获了相当多听友的认可,销量也大大超出了我们的预期,感谢大家!
新年新气象,我们也将原计划到 2 月 18 日结束的早鸟优惠价 99 元延长到元宵节,2 月 26 日再恢复到原价 129 元。希望「不止金钱」在新年的一年里也能帮助大家更好的应对工作和学习中的变化,让钱包和生活都变得确定。
点击链接查看「不止金钱」的节目简介、收听节目预告。


本期人物
李崇轩,中国人民大学高瓴人工智能学院副教授、博士生导师
和成,AI 连续创业者,Newcast.ai 创始人、YC Alumni


主要话题
[02:23] 聊聊看到 Demo 视频后的意料之外与情理之中
[03:58] Diffusion 和 Transformer 大家都在用,为什么只有 Sora 能生成 60s 的视频?
[10:53] Sora 训练用的数据可能部分来自游戏引擎生成?
[15:08] Sora 训练参数大猜测
[16:33] 文生视频领域不同技术路线的优劣对比
[20:41] 国内外大厂想要追赶 Sora,有哪些壁垒需要突破?
[24:18] Sora 模型的无奈:原理局限与数据瓶颈
[32:56] 对话生成还是新的 UI 界面: Sora 可能的商业化模式
[34:24] 文生视频消灭中间环节,渲染引擎结合 Sora 的想象空间?
[36:34] 距离用户端大规模用上 Sora 还有多久?
[39:03] 为什么说「Sora 是世界模拟器」不够准确?
[41:38] 融入传感器和检索,畅想「世界模拟器」的其他可能性
[44:13] Sora 让我们与 AGI 的距离更近一步?


关联阅读



通用人工智能离我们多远,大模型专家访谈 |S7E11 硅谷徐老师 x OnBoard!
- Sora 的演示视频和技术报告
被认为是 Sora 技术基础的一篇论文,由谢赛宁与 Sora 研发负责人合著
Patch 的技术论文
Pika 创始人回应 Sora 发布
彭博对 Sora 如何改变未来的猜想
Diffusion Transformer(DiT),是一种基于Transformer模型的扩散模型架构。扩散模型是一种生成模型,通过模拟数据的逐步去噪过程来生成新的样本。DiT架构采用了Transformer模型作为扩散模型的核心架构,而不是传统的卷积神经网络(如U-Net)。
W.A.L.T. ,Vision-Augmented Language Transformer是李飞飞教授和她的团队与谷歌合作开发的 基于Transformer的潜在视频扩散模型,中文可以翻译为“视觉增强语言Transformer”。
隐空间(latent space)或者潜在空间(potential space),是机器学习模型中一个重要的概念,它指的是模型学习到的数据特征的抽象表示。在潜在空间中,每个数据点都对应着一个向量,该向量表示该数据点的特征。潜在空间的维度通常比原始数据

48 min

Top Podcasts In Technology

Search Off the Record
Google
Dwarkesh Podcast
Dwarkesh Patel
Darknet Diaries
Jack Rhysider
Deep Questions with Cal Newport
Cal Newport
Tiktok Downloader 4x
Tiktok Downloader 4x
Lex Fridman Podcast
Lex Fridman

More by Sheng FM

声动早咖啡
声动活泼
声东击西
ETW Studio
商业WHY酱
声动活泼
组织进化论
组织进化论
新增长学院
声动活泼
泡腾 VC
声动活泼