Sora 基于 DiT(Diffusion Transformer)架构,把长视频生成的效果提高到了前所未有的水平,也掀起了全球范围内的视频生成热潮。
11 月份,作为国内代表的视频模型公司,生数科技发布了旗下产品 Vidu 的 1.5 版本,全新上线「多图参考」功能,官方介绍该版本实现了视频生成模型的新突破:突破「一致性」难题、理解多样化的输入。
尤其是,多主体一致性的能力,可以说是解决了视频生成模型的「杀手级」难题。
对比文本生成模型的话,这可以说是视频模型的「首次智能涌现」。
事实上,Vidu 背后的团队,比 OpenAI 更早实践了 Diffusion Transformer 架构。2022 年 9 月,还在清华大学朱军教授实验室的鲍凡发表了 U-ViT 架构论文,12 月伯克利团队发布了路线同源的 DiT 架构,这一年的 CVPR,大会接收了清华大学的 U-ViT,反而拒收了伯克利 的 DiT。
我们找到生数科技的 CTO 鲍凡,也是 U-ViT 论文的一作,聊了聊 Vidu 最新版本取得的成果,以及作为全球范围内最早实践 Diffusion Transformer 的专家,他对于视频生成领域的观察和理解。
本期节目,极客公园创始人 & 总裁张鹏,和生数科技联合创始人 & CTO鲍凡,一起聊聊视频生成模型的技术路线与商业化现状。
时间轴:
00:03:33 Vidu 1.5版本中让人惊喜的新功能:上下文能力
00:06:06 从单主体到多主体一致性,技术上是怎么实现的?
00:12:10 为什么给视频模型设计上下文能力?上下文增加后,推理效率有影响吗?
00:18:14 多主体一致性是视频模型的「能力涌现」吗?
00:24:55 多主体一致性会如何影响视频创作行业?
00:28:25 Vidu的下一步:继续scale up
00:34:37 视觉是实现AGI的另外一条路吗?
00:40:57 生数科技的战略,不止图像与3D
00:47:46 Scaling Law真的遇到墙了吗?
00:56:55 Vidu如何和大厂竞争?
01:07:07 生数科技会如何找PMF?
01:11:40 模型能力泛化后,人类与AI的交互会怎么变?
01:17:00 2025年视频生成模型会怎么发展?
01:18:50 科研 vs 创业:5% 的发散,95% 的收敛
相关阅读:
张鹏对话生数科技:视频模型迎来「首次涌现」,视觉更可能通往通用智能
关于我们:
这里是极客公园旗下的科技创业者社区 Founder Park 出品的 AGI 系列播客节目。
「AI局内人」,国绕 AGI相关领域的技术发展、产品方向以及新的商业模式进行探讨和交流。
Founder Park 正在搭建 Al Native 的产品交流群,群内聚集着致力于在大模型相关领域创业的创业者、产品经理、研发工程师、对大模型技术和场景应用开发进展感兴趣的学者及投资人。
对更多内容感兴趣,欢迎关注公众号「Founder Park」。
Informações
- Podcast
- FrequênciaSemanal
- Publicado4 de dezembro de 2024 11:23 UTC
- Duração1h32min
- ClassificaçãoLivre