51 分钟

让奶牛猫跳洗澡舞,与阿里通义薄列峰聊多模态共识中的变量是什么?| AI 大爆‪炸‬ 晚点聊 LateTalk

    • 商务

年初至今,很多人可能都刷到过跳洗澡舞的奶牛猫和大金毛,从 B 站、小红书到 TikTok,它们一路从中国火到了海外。





让小猫舞起来的应用是阿里巴巴通义千问 App 中的“全民舞王”功能,其背后的技术是阿里通义实验室 XR 实验室开发的 Animate Anyone。


通义实验室 XR 实验室的多模态成果还有可一键换装的 Outfit Anyone,和今年 2 月底刚发布的肖像视频生成框架 EMO(Emote Potrait Alive),它可以用一段语音作为单一控制条件,驱动任何肖像类照片动起来,比如让蒙娜丽莎诗朗诵,让 Sora 女主角开口说话。



*节目中涉及的术语可见 Shownotes 末尾的附录解释。


(视频链接见 shownotes 末尾)


本期节目我们就邀请到了这一系列多模态成果的研发 leader,阿里通义实验室科学家(XR 实验室负责人)薄列峰,来分享他在人工智能多模态领域的实践与观察。


薄列峰于 2007 年获得西安电子科技大学电气工程博士学位,后在芝加哥大学和华盛顿大学从事博士后研究。


在加入阿里前,他先后担任了英特尔资深研究员,亚马逊无人超市 Amazon Go 首席应用科学家和京东数科 AI 实验室首席科学家。


薄列峰的学术和工业界经历刚好横跨深度学习崛起前后,并涉足多个领域,包括计算机视觉、自然语言和 AI 与硬件的结合。


本期节目我们从 OpenAI Sora 对多模态行业的影响出发,聊到了阿里自己的实践,技术与产品的结合——Animate Anyone 支持的“全民舞王”是一个AIGC(生成式人工智能)应用引发 meme 传播的的例子;还有薄列峰对多模态未来趋势,包括更长期的世界模型的技术设想。


内容摘要:
· Sora 和多模态行业进展
01:50 典型的多模态包括文生图、文生视频等;XR 实验室研究范围:解决数字人等问题。
03:19 多模态有较长的发展脉络,从 GAN 到 Diffusion Model 再到如今的 Sora。
06:35 Sora 的冲击:恐惧无益,视频生成尚未完全解决,世界模型仍有探索空间。
08:04 世界模型的定义和实现方法尚未达成共识。
09:09 Sora 带来了挑战与冲击,创业公司的机会。
10:51 面对 Sora,大厂的数据优势是否仍存在?


· XR 实验室的多模态探索
12:40 多模态模仿人类智能和能力,是自然而重要的发展方向。
14:00 阿里多模态研究脉络:数字资产生产+技能;技能涵盖表情、动作和交互等。
18:26 EMO 通过单一语音控制生成视频,无需动作序列。
20:40 Talking head 之前也有人做,新方法的区别在于使用了大模型。
21:32 大模型带来的变化:EMO 是 zero shot,生成过程简单、轻量;同时效果更生动、复杂,适应性更强。


· 技术与产品的协同进步
24:10 Animate Anyone 用到通义千问 app 中是技术研发和应用的交集。
26:28 用户带来的启发:让宠物跳舞比让人跳舞更受欢迎,因为宠物只能通过技术来跳舞。
27:10 上传狗的人比猫的人更多,因为原初模型更容易识别狗,近期已做了优化,提升了对猫狗的接受率。
27:56 免费提供 AIGC 功能的成本考量?现阶段更重视用户参与和反馈。
29:15 为何分精力做产品优化?——现阶段的产品优化实质是模型能力的优化。


· 过往的跨领域经历和技术观察
32:58 07年前后关于深度学习的玩笑:“深度学习效果比其它方法高了一个点,但多了很多参数。”
33:42 深度学习首先在语音识别任务上取得突破。
34:45 在亚马逊 Amazon Go 解决实际视觉问题的经历。
36:30 跨学科经历的启发?——实践中积累的正确理解至关重要。
38:20 为什么物理世界的 AI 进化更慢?——硬件在过去甚至未来都是大瓶颈。
42:10 多模态大趋势里的变量?——世

年初至今,很多人可能都刷到过跳洗澡舞的奶牛猫和大金毛,从 B 站、小红书到 TikTok,它们一路从中国火到了海外。





让小猫舞起来的应用是阿里巴巴通义千问 App 中的“全民舞王”功能,其背后的技术是阿里通义实验室 XR 实验室开发的 Animate Anyone。


通义实验室 XR 实验室的多模态成果还有可一键换装的 Outfit Anyone,和今年 2 月底刚发布的肖像视频生成框架 EMO(Emote Potrait Alive),它可以用一段语音作为单一控制条件,驱动任何肖像类照片动起来,比如让蒙娜丽莎诗朗诵,让 Sora 女主角开口说话。



*节目中涉及的术语可见 Shownotes 末尾的附录解释。


(视频链接见 shownotes 末尾)


本期节目我们就邀请到了这一系列多模态成果的研发 leader,阿里通义实验室科学家(XR 实验室负责人)薄列峰,来分享他在人工智能多模态领域的实践与观察。


薄列峰于 2007 年获得西安电子科技大学电气工程博士学位,后在芝加哥大学和华盛顿大学从事博士后研究。


在加入阿里前,他先后担任了英特尔资深研究员,亚马逊无人超市 Amazon Go 首席应用科学家和京东数科 AI 实验室首席科学家。


薄列峰的学术和工业界经历刚好横跨深度学习崛起前后,并涉足多个领域,包括计算机视觉、自然语言和 AI 与硬件的结合。


本期节目我们从 OpenAI Sora 对多模态行业的影响出发,聊到了阿里自己的实践,技术与产品的结合——Animate Anyone 支持的“全民舞王”是一个AIGC(生成式人工智能)应用引发 meme 传播的的例子;还有薄列峰对多模态未来趋势,包括更长期的世界模型的技术设想。


内容摘要:
· Sora 和多模态行业进展
01:50 典型的多模态包括文生图、文生视频等;XR 实验室研究范围:解决数字人等问题。
03:19 多模态有较长的发展脉络,从 GAN 到 Diffusion Model 再到如今的 Sora。
06:35 Sora 的冲击:恐惧无益,视频生成尚未完全解决,世界模型仍有探索空间。
08:04 世界模型的定义和实现方法尚未达成共识。
09:09 Sora 带来了挑战与冲击,创业公司的机会。
10:51 面对 Sora,大厂的数据优势是否仍存在?


· XR 实验室的多模态探索
12:40 多模态模仿人类智能和能力,是自然而重要的发展方向。
14:00 阿里多模态研究脉络:数字资产生产+技能;技能涵盖表情、动作和交互等。
18:26 EMO 通过单一语音控制生成视频,无需动作序列。
20:40 Talking head 之前也有人做,新方法的区别在于使用了大模型。
21:32 大模型带来的变化:EMO 是 zero shot,生成过程简单、轻量;同时效果更生动、复杂,适应性更强。


· 技术与产品的协同进步
24:10 Animate Anyone 用到通义千问 app 中是技术研发和应用的交集。
26:28 用户带来的启发:让宠物跳舞比让人跳舞更受欢迎,因为宠物只能通过技术来跳舞。
27:10 上传狗的人比猫的人更多,因为原初模型更容易识别狗,近期已做了优化,提升了对猫狗的接受率。
27:56 免费提供 AIGC 功能的成本考量?现阶段更重视用户参与和反馈。
29:15 为何分精力做产品优化?——现阶段的产品优化实质是模型能力的优化。


· 过往的跨领域经历和技术观察
32:58 07年前后关于深度学习的玩笑:“深度学习效果比其它方法高了一个点,但多了很多参数。”
33:42 深度学习首先在语音识别任务上取得突破。
34:45 在亚马逊 Amazon Go 解决实际视觉问题的经历。
36:30 跨学科经历的启发?——实践中积累的正确理解至关重要。
38:20 为什么物理世界的 AI 进化更慢?——硬件在过去甚至未来都是大瓶颈。
42:10 多模态大趋势里的变量?——世

51 分钟