Vol.26 对谈生数科技CTO鲍凡:视频模型迎来了「首次涌现」,视觉更有可能通往 AGI

AI局内人 | AGI Insider

Sora 基于 DiT(Diffusion Transformer)架构,把长视频生成的效果提高到了前所未有的水平,也掀起了全球范围内的视频生成热潮。

11 月份,作为国内代表的视频模型公司,生数科技发布了旗下产品 Vidu 的 1.5 版本,全新上线「多图参考」功能,官方介绍该版本实现了视频生成模型的新突破:突破「一致性」难题、理解多样化的输入。

尤其是,多主体一致性的能力,可以说是解决了视频生成模型的「杀手级」难题。

对比文本生成模型的话,这可以说是视频模型的「首次智能涌现」。

事实上,Vidu 背后的团队,比 OpenAI 更早实践了 Diffusion Transformer 架构。2022 年 9 月,还在清华大学朱军教授实验室的鲍凡发表了 U-ViT 架构论文,12 月伯克利团队发布了路线同源的 DiT 架构,这一年的 CVPR,大会接收了清华大学的 U-ViT,反而拒收了伯克利 的 DiT。

我们找到生数科技的 CTO 鲍凡,也是 U-ViT 论文的一作,聊了聊 Vidu 最新版本取得的成果,以及作为全球范围内最早实践 Diffusion Transformer 的专家,他对于视频生成领域的观察和理解。

本期节目,极客公园创始人 & 总裁张鹏,和生数科技联合创始人 & CTO鲍凡,一起聊聊视频生成模型的技术路线与商业化现状。

时间轴:

00:03:33 Vidu 1.5版本中让人惊喜的新功能:上下文能力

00:06:06 从单主体到多主体一致性,技术上是怎么实现的?

00:12:10 为什么给视频模型设计上下文能力?上下文增加后,推理效率有影响吗?

00:18:14 多主体一致性是视频模型的「能力涌现」吗?

00:24:55 多主体一致性会如何影响视频创作行业?

00:28:25 Vidu的下一步:继续scale up

00:34:37 视觉是实现AGI的另外一条路吗?

00:40:57 生数科技的战略,不止图像与3D

00:47:46 Scaling Law真的遇到墙了吗?

00:56:55 Vidu如何和大厂竞争?

01:07:07 生数科技会如何找PMF?

01:11:40 模型能力泛化后,人类与AI的交互会怎么变?

01:17:00 2025年视频生成模型会怎么发展?

01:18:50 科研 vs 创业:5% 的发散,95% 的收敛

相关阅读:

张鹏对话生数科技:视频模型迎来「首次涌现」,视觉更可能通往通用智能

关于我们:

这里是极客公园旗下的科技创业者社区 Founder Park 出品的 AGI 系列播客节目。

「AI局内人」,国绕 AGI相关领域的技术发展、产品方向以及新的商业模式进行探讨和交流。

Founder Park 正在搭建 Al Native 的产品交流群,群内聚集着致力于在大模型相关领域创业的创业者、产品经理、研发工程师、对大模型技术和场景应用开发进展感兴趣的学者及投资人。

对更多内容感兴趣,欢迎关注公众号「Founder Park」。

للاستماع إلى حلقات ذات محتوى فاضح، قم بتسجيل الدخول.

اطلع على آخر مستجدات هذا البرنامج

قم بتسجيل الدخول أو التسجيل لمتابعة البرامج وحفظ الحلقات والحصول على آخر التحديثات.

تحديد بلد أو منطقة

أفريقيا والشرق الأوسط، والهند

آسيا والمحيط الهادئ

أوروبا

أمريكا اللاتينية والكاريبي

الولايات المتحدة وكندا