文理两开花

两年之约,再探AI:智能的本质和极限在哪里?

本期是"锵锵三人行",邀请《文理》唯一返场嘉宾——人工智能专家及从业者朱老师。

巧的是,上次请朱老师来聊天,正好是两年前(2023年3月),当时GPT-4刚刚问世。当时引发的热潮与现在DeepSeek非常相似,都有"AI要颠覆一切"的心潮澎湃感觉, 以及文科生们集体陷入大面积焦虑。

本期讨论源于朱老师听完前一期GEB节目后留下的评论。作为一位AI专家,他在节目大约一小时处听出了一个有趣的细节,涉及到生成式和判定式智能的本质区别、AI将向何处发展、以及人类处境——本期就来好好头脑风暴一下。

时间戳:

00:04:22  尘嚣散去,复归平静:平心而论评价一下DeepSeek
00:07:50  推理模型就像“三体人”
00:13:07  "外求"哲学:DeepSeek的判定能力来自更大的模型?
00:28:10  与众不同的激励和学习方式才能激发出"野生智能"?
00:43:05  底座模型与思考时间的关系
00:53:48  AI智能体时代已来?
01:08:24  说点儿惊悚的: AI开源的后果你想到了吗?
01:30:32  人类该怎么办?
01:39:14  最后开个大脑洞:AI自我认知与智能极限到底在哪里?


文字稿:

00:04:22  尘嚣散去,复归平静:平心而论评价一下DeepSeek

现在DeepSeek出现已经两个多月了,热度稍微有所平静。很多人体验是刚开始非常惊艳,但最近发现它的想象力过于丰富,文采太过爆棚。且相比其他模型如Gemini和Claude,它的幻觉问题似乎更严重。

DeepSeek在国内成为爆款的原因之一是因为其中文语言能力特别强,文字优美,像非常天才的文科生。但在结构化输出和幻觉控制方面,相对其他顶级模型确实偏弱。技术上最重要的差别是它采用了新的方式,R1中的"R"代表"reasoning"(推理),是一种"想一想再作答"的模型。之前的模型如GPT-4o或Claude-3.5上来就回答,没有思考过程,容易出错,可视为System I的快思考模型。而DeepSeek-R1是System II的慢思考模型,能明显提高结果质量。

人工智能向人脑靠拢有三个方向:低功耗、逻辑推理能力和信息检索生成。GPT系列在信息检索生成方面已超越人类,但低功耗和逻辑推理方面仍有提升空间。DeepSeek在这两方面有所突破,通过算法优化降低了计算费用和功耗,同时增强了逻辑推理能力,包括自我纠正错误的能力。


00:07:50  推理模型就像“三体人”

DeepSeek R1之所以惊艳,是因为它代表了新一代推理模型(Reasoning Model)。全球范围内的推理模型还包括2024年10月OpenAI推出的O1、年底的O3、2025年2月马斯克的Grok3以及Claude-3.7-sonnet。推理模型的特点是回答前先输出思考过程,就像"三体人",思想是透明的。

一个有趣的例子:用户问Grok3"谁在Twitter上传播最多假消息",在模型思考部分能看到它的挣扎——搜索结果显示Trump和Musk传播最多假消息,但系统指令禁止它提及这一点,最终它决定不提Musk。这些截图在网上流传后,官方发推说写这行指令的员工来自OpenAI,已被开除。

所以使用推理模型应与聊天模型不同:一次性提供尽可能多的上下文,不要"挤牙膏式"地一点点给;明确描述目标,但不要教它怎么做;依靠模型的推理能力来解决问题,结果往往更好。


00:13:07  "外求"哲学:DeepSeek的判定能力来自更大的模型?

在之前GEB节目中讨论到,GPT这种生成式人工智能类似于形式系统给定公理和规则不断创造新定理,用transformer等规则生成新内容。它只负责生成,不关心对错,把判断留给人类。当时推测DeepSeek的判定能力可能来自更大的模型,比如ChatGPT,借此反馈智能推理的真假。这涉及到哥德尔不可判定命题的问题——形式系统可以生成所有真理(递归可枚举),但自己判定不了。

但实际上,DeepSeek的强化学习(RL)不是依赖更大的模型,而是利用外部验证器(如编程模拟器、数学标准答案、证明编译器)让模型在探索中提高推理能力。这符合侯世达所说的"从系统外求"原则——系统不能仅靠自己判断正确性。

简单来说,"外求"就像学生需要老师和标准答案提高一样。如果只是自己出题自己做,然后自己判卷,就不知道错在哪里,很难提高。AI模型需要从系统外获取反馈才能进步。前提是底座知识要足够大,就像高中生有基础,多想几步可能达到大学生水平,但如果是小学生,给再多时间也难以掌握微积分。

尽管如此,"外求"可分为两种:知识信息或事实判定的外求,以及逻辑思维能力正确性的外求。前者可以通过人类反馈或更大数据集实现,后者更具挑战性。举例来说,判断数学证明题时,老师不是判断结果(已知正确),而是判断推理过程是否符合逻辑。外部验证点必须具备超强且正确的逻辑思维能力,才能有效判定——“逻辑思维”的外部验证是怎么实现的呢?这是个非常有趣的问题。


00:28:10  与众不同的激励和学习方式才能激发出"野生智能"?

DeepSeek R1选择的强化学习方式与众不同。他们没有采用过程奖励模型(PRM,对每步给反馈),而是采用目标奖励模型(ORM,只看最终结果)。比起OpenAI推崇的PRM,这种方法允许模型在中间步骤犯错,进而学会从错误中恢复。

在训练过程中观察到两个关键现象:随着训练步骤增多,解题正确率和思考长度同步上升;模型涌现出回溯(backtracking)能力,会说"等等,前面这步有问题,我退回重新做"。这类似AlphaGo的蒙特卡洛树搜索,允许尝试各种走法,通过评估找到最佳方案。

如果模型每一步都不允许犯错,就会被框住,学不到从错误中改进思路的方式。比如问"1+1等于几",如果允许模型先错("1+1=3")再自我纠正("不对,1+1=2"),通过大量问题训练,模型能学会反省能力。这种在环境中探索出的"野生智能"非常强大,不是被明确教导的,而是自己探索出来的,能掌握逻辑思维中的微妙技巧,甚至能发现语言中的新联系。

这似乎在某种角度也是一种"大力出奇迹"?——通过足够多的测试和反省,突然产生正确逻辑。再往下想,是否能触到人类智能的本质问题:人类的意识或逻辑思维能力是本来就有的,还是在环境中进化出来的?

人类不是通过列举所有可能命题判断真假,而是有自我反思能力,不断试错累积正确的推理模式。AI通过同样的路径,可能会发展出类似人类的智能?


00:43:05 底座模型与思考时间的关系

成功实现强化学习需要底座模型能力足够强,与外部验证目标匹配。

做个比喻:把一个小学生关在房间里,每天拼命做高等数学习题册,可能也训不出什么,但给优秀高中生高考模拟题,让他闭关练习对照答案,高考分数可能大幅提高。DeepSeek基础模型本身做得很好,才使强化学习效果明显。
实验表明,把千问的32B模型经过同样的强化学习,提高有限;但把DeepSeek R1产生的60万条思考过程数据直接交给千问,效果好得多。这说明好的学生可以自己琢磨提高,而不是简单抄答案。

在线思考时间与模型大小在某种意义上是可互换的。AlphaGo Zero的参数只有46M(现在看很小),但有蒙特卡洛树搜索时水平达到Elo 5200(远超人类顶尖选手的3700);如果禁止搜索,水平就降至Elo 3000(普通高手)。这相当于模型扩大约10万倍。在德州扑克等领域也有类似结果:增加在线检索,效果相当于模型大幅扩大。
这解释了为什么GPT-4.5虽然价格是GPT-4o的15倍、mini的250倍,但效果一般,很多方面不如DeepSeek-R1,因为它只是模型变大了,没有思考过程。相比之下,O1等模型虽然不是特别大,但因为有思考过程,能力明显增强。

就像阿西莫夫《最后的问题》中描述的:模型持续思考足够长时间,相当于变得像宇宙那么大,可能解决很多复杂问题。


00:53:48 AI智能体时代已来?

Sam Altman的AI五阶段论:对话、推理、规划、发明创造、协作。现在是否已经进入规划,也即AI Agent时代?

Agent与传统AI交互有本质区别:传统方式只给AI"纸笔"(文本交互),而Agent是给AI一台电脑和各种工具。Workflow和Agent的差别在于:workflow是预先定义好的步骤,Agent是给环境和目标,让它自己探索解决方法。这与推理模型相似,不要教它怎么做,而