Seventy3

任雨山

73播客,名字取材于Sheldon最喜欢的数字,内容由NotebookLM生成,每天跟随AI读AI业界论文。

  1. -12 H

    【第598期】通过原子技能强化学习扩展编程智能体

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:Scaling Coding Agents via Atomic Skills Summary 当前的 LLM 编码智能体主要基于复合型基准任务(例如 Bug 修复)进行训练,这往往会导致针对特定任务的过拟合以及泛化能力受限。为了解决这一问题,我们提出了一种新的扩展范式,将重点从任务级优化转向原子技能掌握。我们首先形式化定义了五种基础原子技能:代码定位、代码编辑、单元测试生成、问题复现以及代码审查,这些技能构成了复杂软件工程任务的基向量。相比复合型编码任务,这些原子技能具有更强的泛化性与可组合性。随后,我们通过在原子技能上进行联合强化学习(joint RL)来扩展编码智能体。通过这种方式,各项原子技能能够在不存在负面干扰或相互权衡的情况下持续提升。值得注意的是,我们观察到,这些原子技能的提升能够很好地泛化到其他未见过的复合型编码任务中,例如 Bug 修复、代码重构、机器学习工程以及代码安全等。这一发现推动了一种新的编码智能体扩展范式:基于原子技能进行训练。大量实验表明了我们所提出范式的有效性。特别地,我们的联合强化学习方法在 5 项原子技能和 5 项复合任务上的平均性能提升达到了 18.7%。 原文链接:https://arxiv.org/abs/2604.05013

    19 min
  2. -1 J

    【第597期】单智能体与多智能体大模型推理效能对比研究

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets Summary 近期研究报告称,多智能体大语言模型系统(multi-agent LLM systems,MAS)表现出很强的性能,但这些性能提升往往受到“测试时计算量增加”这一因素的干扰。当计算资源被归一化后,单智能体系统(single-agent systems,SAS)实际上能够达到甚至超过 MAS 的表现;然而,这种比较背后的理论基础和评测方法仍不清晰。 我们提出了一个基于信息论的论证,其核心建立在“数据处理不等式”(Data Processing Inequality)之上。该论证表明:在推理 token 预算固定、且上下文利用率完美的情况下,单智能体系统在信息利用效率上更优。 这一观点进一步预测:当单个智能体的上下文利用能力下降,或者允许消耗更多计算资源时,多智能体系统才会变得更具竞争力。 我们在一个受控实验研究中验证了这些预测。实验覆盖三个模型家族: Qwen3 DeepSeek-R1-Distill-Llama Gemini 2.5 并在统一预算条件下,对单智能体系统与多种多智能体架构进行了比较。 实验结果表明:在推理 token 数量保持一致时,SAS 在多跳推理(multi-hop reasoning)任务上始终能够匹配甚至超过 MAS 的表现。 除了总体性能分析之外,我们还对系统行为和评测方法进行了详细诊断。我们发现: 基于 API 的预算控制存在显著伪差(artifacts),尤其是在 Gemini 2.5 中; 标准基准测试本身也存在问题; 这两类因素都会夸大 MAS 看似带来的性能收益。 总体而言,我们的结果表明:对于多跳推理任务,许多已报告的多智能体系统优势,更可能是由于未被充分统计的计算量和上下文效应,而不是源于其架构本身的天然优势。 研究同时强调,在智能体系统(agentic systems)中,理解并明确控制“计算资源、上下文利用与协同机制”之间的权衡关系至关重要。 原文链接:https://arxiv.org/abs/2604.02460

    20 min
  3. -2 J

    【第596期】MIA:基于存储智能的深度研究智能体框架

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:Memory Intelligence Agent Summary 深度研究智能体(Deep Research Agents,DRAs)将大语言模型(LLM)的推理能力与外部工具结合起来。记忆系统使 DRAs 能够利用历史经验,而这对于高效推理和自主进化至关重要。现有方法通常依赖从记忆中检索相似的历史轨迹来辅助推理,但存在两个关键问题:记忆演化效率低,以及存储与检索成本不断增加。 为了解决这些问题,我们提出了一种新的 Memory Intelligence Agent(MIA)框架,其采用 Manager–Planner–Executor(管理者–规划者–执行者)架构。 Memory Manager 是一个非参数化记忆系统,可以存储经过压缩的历史搜索轨迹。 Planner 是一个参数化记忆智能体,能够针对问题生成搜索计划。 Executor 则是另一个智能体,在搜索计划的指导下执行信息搜索与分析。 为了构建 MIA 框架,我们首先采用一种交替式强化学习(alternating reinforcement learning)范式,以增强 Planner 与 Executor 之间的协同能力。 此外,我们使 Planner 能够在测试时学习(test-time learning)过程中持续进化:模型更新会与推理同步在线进行,而不会中断推理过程。 同时,我们还建立了参数化记忆与非参数化记忆之间的双向转换循环,从而实现高效的记忆演化。 最后,我们引入了反思(reflection)机制以及无监督判断(unsupervised judgment)机制,以提升模型在开放世界环境中的推理能力和自我进化能力。 在 11 个基准测试上的大量实验结果表明,MIA 相较现有方法具有明显优势。 原文链接:https://arxiv.org/abs/2604.04503

    29 min
  4. -3 J

    【第595期】MEMENTO:教导大语言模型自主管理推理上下文

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:MEMENTO: Teaching LLMs to Manage Their Own Context Summary 推理模型通常以冗长、无结构的方式进行思考,却缺乏压缩或组织其中间状态的机制。我们提出了 MEMENTO:一种教会模型将推理过程划分为多个模块(blocks)的方法。模型会把每个模块压缩成一个“memento”(记忆摘要),即一种稠密的状态总结,并且在后续推理时只关注这些 mementos,从而减少上下文长度、KV cache 占用以及计算开销。 为了训练 MEMENTO 模型,我们发布了 OpenMementos:一个包含 22.8 万条推理轨迹的公开数据集。该数据集基于 OpenThoughts-v3 构建,对推理过程进行了分段,并为每个中间阶段添加了摘要标注。 我们表明,基于 OpenMementos 的两阶段监督微调(SFT)方案,在不同模型家族(如 Qwen3、Phi-4、Olmo 3)以及不同规模(80 亿至 320 亿参数)上都具有良好效果。训练后的模型在数学、科学和代码基准测试上依然保持较强准确率,同时实现了约 2.5 倍的 KV cache 峰值占用降低。 我们还扩展了 vLLM 以支持这种推理方法,实现了约 1.75 倍的吞吐量提升,并进一步支持强化学习(RL)训练,从而继续提高模型准确率。 最后,我们发现存在一种“双重信息流”机制:每个推理模块中的信息,既通过 memento 文本传递,也通过对应的 KV 状态传递;后者会保留原始推理模块中的隐式信息。如果移除这一通道,在 AIME24 基准上的准确率会下降 15 个百分点。 原文链接:https://arxiv.org/abs/2604.09852

    24 min
  5. -4 J

    【第594期】Neural Computers:融合计算与存储的语义化运行态

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:Neural Computers Summary 我们提出了一个新的前沿方向:神经计算机(Neural Computers,NCs)。它将传统计算机中的计算、存储和输入/输出(I/O)统一到一种“学习得到的运行时状态”中。我们的长期目标是“完全神经计算机”(Completely Neural Computer,CNC):这种新型机器形态成熟后的通用实现,具备稳定执行、显式重编程以及持久化能力复用等特性。 作为第一步,我们研究:是否能够仅依赖收集到的输入/输出轨迹,而不借助程序内部状态的插桩信息,来学习基础的 NC 原语。具体而言,我们将 NC 实例化为一种视频模型,在命令行界面(CLI)和图形用户界面(GUI)环境中,根据指令、屏幕像素以及用户操作(如果可用)来逐帧生成屏幕画面。 我们表明,NC 能够习得基础的界面原语,尤其是在 I/O 对齐和短时域控制方面表现出能力;但在常规能力复用、受控更新以及符号稳定性方面,仍然面临挑战。 最后,我们勾勒了通向 CNC 的发展路线图,旨在建立一种超越当今智能体(agents)和传统计算机的新型计算范式。 原文连接:https://arxiv.org/abs/2604.06425

    16 min
  6. -6 J

    【第592期】大语言模型多智能体规划的可靠性界限

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:On the Reliability Limits of LLM-Based Multi-Agent Planning Summary 本技术笔记探讨了基于 LLM 的多智能体规划作为一种“委托决策问题”的可靠性极限。 我们将多智能体架构建模为一个有限无环决策网络。在该网络中,多个阶段处理共享的模型上下文信息,通过容量有限的语言接口进行通信,并可能引入人工审查。 1. 核心理论:中心化优于委托化我们的研究得出了一个基础性的结论:在没有引入新的外部信号的情况下,任何委托决策网络在决策论意义上,都受到一个拥有相同信息的中心化贝叶斯决策者(Centralized Bayes Decision Maker)的“支配”。 这意味着,多智能体协作并不会在信息处理上产生“1+1>2”的神奇增益;相反,它更多是在受限条件下对信息的重新组织。在“共同证据(Common-evidence)”范式下,优化多智能体有向无环图(DAG)的过程,实际上可以被视为在有限通信预算下,对共享信号选择一种受限的随机实验。 2. 量化通信与压缩带来的损失我们进一步刻画了由于通信和信息压缩导致的性能损失。在适当评分规则(Proper scoring rules)下,中心化贝叶斯价值与委托决策价值之间的差距,可以用期望后验散度(Expected posterior divergence)来表示: 对数损失(Logarithmic loss):该差距简化为条件互信息(Conditional Mutual Information)。 布赖尔分数(Brier score):该差距体现为期望后验平方误差(Expected squared posterior error)。 这些数学性质界定了 LLM 规划在被“分包”给多个智能体时,由于信息流转不畅而导致的可靠性天花板。 3. 实验验证通过在受控问题集上对 LLM 进行实验,我们证实了上述理论刻画。实验表明,随着通信瓶颈的加剧,多智能体系统的规划质量会严格遵循上述数学规律下降。 总结: 这项研究为多智能体规划泼了一盆“理性的冷水”:如果没有新的信息输入,拆分任务和增加智能体数量本质上是在进行一场有损的信息博弈。 要想逼近可靠性极限,关键在于如何最小化通信过程中的信息熵损失。 原文链接:https://arxiv.org/abs/2603.26993

    20 min
  7. 13 MAI

    【第591期】推理模型成本反转现象:标价与实际开销的脱节

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:The Price Reversal Phenomenon: When Cheaper Reasoning Models End Up Costing More Summary 开发者和消费者在选择推理语言模型(RLMs)时,往往会根据官方给出的 API 价目表进行决策。然而,这些标价真的能反映实际的推理成本吗? 我们对此进行了首次系统性研究,涵盖了 8 个前沿 RLM 并在 9 项任务(如竞赛数学、科学问答、代码生成等)上进行了评估。结果揭示了一个令人震惊的真相:API 标价在很多时候只是个“幌子”。 1. 核心发现:“价格倒挂”现象研究发现,标价更便宜的模型,用起来反而可能更贵。 发生频率:在 21.8% 的模型配对比较中,出现了价格倒挂(Pricing Reversal)。 极端案例:倒挂幅度最高可达 28 倍。 扎心的例子: Gemini 3 Flash vs. GPT-5.2 标价:Gemini 3 Flash 比 GPT-5.2 便宜 78%。 实测成本:在所有任务中,Gemini 3 Flash 的实际支出反而比 GPT-5.2 高出 22%。 2. 罪魁祸首:深不可测的“思考 Token”为什么便宜的模型反而更贵?问题的根源在于不同模型对 思考 Token(Thinking Tokens) 的消耗量存在巨大差异。 消耗异质性:面对同一个查询,某个模型使用的思考 Token 可能比另一个模型多出 900%。 数据相关性: 如果剔除思考 Token 的成本,排名逆转现象会减少 70%。 标价与实际成本之间的秩相关系数(Kendall’s τ)会从 0.563 跃升至 0.873。 3. 不可预测的“噪音墙”研究进一步指出,想要精准预测单次查询的成本几乎是不可能的。 即使是完全相同的查询,多次运行产生的思考 Token 变化量也可能高达 9.7 倍。 这种“不可还原的噪声”为任何成本预测模型都设定了一个难以逾越的底线。 结论与建议研究结果表明,API 官方标价是衡量实际成本的一个极不可靠的指标。 成本感知选型:在选择模型时,不能只看 1M Token 多少钱,而必须针对具体业务场景进行实测。 透明监控:呼吁厂商提供更透明的单次请求成本监测工具。 简单来说: 别只看单价,有些模型虽然单价低,但它们“想得太多”,最后买单的还是你。 原文链接:https://arxiv.org/abs/2603.23971

    21 min

À propos

73播客,名字取材于Sheldon最喜欢的数字,内容由NotebookLM生成,每天跟随AI读AI业界论文。

Vous aimeriez peut‑être aussi