102. 和张祥雨聊,多模态研究的挣扎史和未来两年的2个“GPT-4时刻”

张小珺Jùn|商业访谈录

今天这集,《商业访谈录》第一次迎来一位co-host,是大家熟悉的李广密。

广密邀请了大模型公司阶跃星辰的首席科学家张祥雨,来聊聊,多模态的前世今生和未来技术的前沿走向。

张祥雨在这集节目详细阐述了:他参与的多模态的10年历史,对多模态的全新思考,以及所预见的下一个“GPT-4时刻”。

他提到一个细节:在训练过程中他曾经发现一件百思不得其解的现象——模型的通用对话能力、情商和知识量都是随着模型变大变得更强,但模型的推理能力(尤其是数学)表现却是先上升后平缓,再扩大反而是下降——这点在业界还未引发广泛讨论。关于这个怪现象,他也给出了自己的解答。

下面是广密和祥雨的聊天。

2025,我们和AI共同进步!

我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)

多模态研究的10年史:迷茫和转机

02:00 张祥雨的学术经历和个人研究主线

12:25 CV(计算机视觉)向NLP(自然语言处理)的学习历史

17:14 2022年我开始对单纯靠视觉学出“CV领域的GPT时刻”比较悲观

18:22 纯视觉这个domain有什么问题?GPT这样的生成模型你可以同时拥有生成、理解和人类对齐,而静态图像这三者是割裂的

24:23 我停止了对静态图像表征的研究,构思新的研究主题:短期内利用视觉和语言的对齐关系

29:10 经过尝试还是没做到图像的理解、生成和对齐一体化,我得到一个越来越强的生成模型,和一个越来越强的理解模型,没有起到叠加效果——为什么如此难以融合?

38:45 做了大半年十分迷茫,但在此刻出现了转机

训练大模型发现的怪事、蛛丝马迹与办法

41:11 训练过程中发现了一件百思不得其解的怪事:模型的通用对话能力、情商、知识量确实模型越大越强,但模型的推理能力(尤其是数学)表现是先上升后平缓,再扩大反而是下降

43:10 一些蛛丝马迹:更大的模型做数学题倾向于跳步,不老实

44:33 经过分析,这是next token prediction的本质缺陷

45:42 更大的压缩率未必对应更高的计算精度,我们来做一个思想实验

47:27 生成模型的“特征坍缩现象”

50:48 解决方案就是引入RL(强化学习)

53:28 o1的核心是思维链的pattern——“做思考模型,pattern is all you need”

01:01:52 当模型走到某一步,摆在面前有两个分支——走左边?还是走右边?——一个token之内到底能不能解决?(critical decision)——不能,所以引入反思pattern

01:10:16 o1范式的本质是一种Meta-CoT ,是CoT的CoT

对多模态研究的新思考和新进展

01:10:57 研究完o1,返回研究为什么视觉生成可控性这么差,就有了眉目

01:15:13 简单把生成和理解做到一起,难度非常大,缺失了重要一环CoT

01:15:54 去年中开启新的project:视觉理解(视觉空间的Long CoT)

01:19:06 尝试了半年,结果给大家透露一下吧!

01:21:30 o系列不仅泛化了domain,更吸引人的是泛化了pattern

01:22:16 博弈类问题是难以泛化的领域,有很多无效思考和低级错误

01:24:07 o1激发的反思pattern,在预训练语料中都有分布了

01:31:31 关于预训练加多模态数据有两种说法:影响了text智商?还是增强了scaling law?

01:36:43 往后两条腿走:扩充预训练语料和扩展动作空间

01:45:42 多模态的“GPT-4时刻”还有多久

预见下一个“GPT-4时刻”

01:46:56 long context和多模型协作

02:07:09 架构不重要,架构是服务算法和系统的(为什么我说Linear Transformer不本质)

02:08:30 下一个“GPT-4时刻”?模型的在线学习/自主学习

02:21:22 澄清一些有关Agent的观点

02:25:00 人虽然没有生成器官,但人有世界模型

02:26:34 我们的智能水平还在为视觉挣扎,机器人领域在抢跑

【更多信息】

联络我们:微博@张小珺-Benita

更多信息欢迎关注公众号:张小珺

To listen to explicit episodes, sign in.

Stay up to date with this show

Sign in or sign up to follow shows, save episodes and get the latest updates.

Select a country or region

Africa, Middle East, and India

Asia Pacific

Europe

Latin America and the Caribbean

The United States and Canada