Seventy3

任雨山

5,0 (1)
TECHNOLOGIES

73播客，名字取材于Sheldon最喜欢的数字，内容由NotebookLM生成，每天跟随AI读AI业界论文。

-2 H

【第599期】LightThinker：动态推理压缩与显式内存管理

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。合作邮箱：zhiwudazhanjiangshi#gmail.com 今天的主题是：LightThinker++: From Reasoning Compression to Memory Management Summary 大型语言模型（LLM）在复杂推理方面表现出色，但其效率受到长链式思维轨迹所带来的认知开销激增的限制。本文提出了 LightThinker，一种使 LLM 能够将中间思维过程动态压缩为紧凑语义表示的方法。然而，静态压缩在复杂推理场景中往往效果不佳，因为中间细节一旦不可逆地丢失，可能会导致逻辑瓶颈。为了解决这一问题，我们进一步将框架演化为 LightThinker++，引入了显式自适应记忆管理（Explicit Adaptive Memory Management）。这一范式转向了行为层级的管理，通过引入显式记忆原语（memory primitives），并结合专门设计的轨迹合成流水线来训练具有目的性的记忆调度能力。大量实验从三个维度验证了该框架的通用性： LightThinker 在仅带来极小精度损失的情况下，将峰值 token 使用量降低了 70%，推理时间减少了 26%。在标准推理任务中，LightThinker++ 在相同上下文预算下实现最高性能时，将峰值 token 使用量减少了 69.9%，同时准确率提升了 2.42%。更值得注意的是，在长时程智能体任务（long-horizon agentic tasks）中，其在超过 80 轮交互后依然能够维持稳定的资源占用（降低 60%–70%），并在不同复杂场景下平均带来了 14.8% 的性能提升。总体而言，我们的工作为在极低开销下维持 LLM 长时程深度推理提供了一条可扩展的发展方向。原文链接：https://arxiv.org/abs/2604.03679

21 min
-1 J

【第598期】通过原子技能强化学习扩展编程智能体

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。合作邮箱：zhiwudazhanjiangshi#gmail.com 今天的主题是：Scaling Coding Agents via Atomic Skills Summary 当前的 LLM 编码智能体主要基于复合型基准任务（例如 Bug 修复）进行训练，这往往会导致针对特定任务的过拟合以及泛化能力受限。为了解决这一问题，我们提出了一种新的扩展范式，将重点从任务级优化转向原子技能掌握。我们首先形式化定义了五种基础原子技能：代码定位、代码编辑、单元测试生成、问题复现以及代码审查，这些技能构成了复杂软件工程任务的基向量。相比复合型编码任务，这些原子技能具有更强的泛化性与可组合性。随后，我们通过在原子技能上进行联合强化学习（joint RL）来扩展编码智能体。通过这种方式，各项原子技能能够在不存在负面干扰或相互权衡的情况下持续提升。值得注意的是，我们观察到，这些原子技能的提升能够很好地泛化到其他未见过的复合型编码任务中，例如 Bug 修复、代码重构、机器学习工程以及代码安全等。这一发现推动了一种新的编码智能体扩展范式：基于原子技能进行训练。大量实验表明了我们所提出范式的有效性。特别地，我们的联合强化学习方法在 5 项原子技能和 5 项复合任务上的平均性能提升达到了 18.7%。原文链接：https://arxiv.org/abs/2604.05013

19 min
-2 J

【第597期】单智能体与多智能体大模型推理效能对比研究

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。合作邮箱：zhiwudazhanjiangshi#gmail.com 今天的主题是：Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets Summary 近期研究报告称，多智能体大语言模型系统（multi-agent LLM systems，MAS）表现出很强的性能，但这些性能提升往往受到“测试时计算量增加”这一因素的干扰。当计算资源被归一化后，单智能体系统（single-agent systems，SAS）实际上能够达到甚至超过 MAS 的表现；然而，这种比较背后的理论基础和评测方法仍不清晰。我们提出了一个基于信息论的论证，其核心建立在“数据处理不等式”（Data Processing Inequality）之上。该论证表明：在推理 token 预算固定、且上下文利用率完美的情况下，单智能体系统在信息利用效率上更优。这一观点进一步预测：当单个智能体的上下文利用能力下降，或者允许消耗更多计算资源时，多智能体系统才会变得更具竞争力。我们在一个受控实验研究中验证了这些预测。实验覆盖三个模型家族： Qwen3 DeepSeek-R1-Distill-Llama Gemini 2.5 并在统一预算条件下，对单智能体系统与多种多智能体架构进行了比较。实验结果表明：在推理 token 数量保持一致时，SAS 在多跳推理（multi-hop reasoning）任务上始终能够匹配甚至超过 MAS 的表现。除了总体性能分析之外，我们还对系统行为和评测方法进行了详细诊断。我们发现：基于 API 的预算控制存在显著伪差（artifacts），尤其是在 Gemini 2.5 中；标准基准测试本身也存在问题；这两类因素都会夸大 MAS 看似带来的性能收益。总体而言，我们的结果表明：对于多跳推理任务，许多已报告的多智能体系统优势，更可能是由于未被充分统计的计算量和上下文效应，而不是源于其架构本身的天然优势。研究同时强调，在智能体系统（agentic systems）中，理解并明确控制“计算资源、上下文利用与协同机制”之间的权衡关系至关重要。原文链接：https://arxiv.org/abs/2604.02460

20 min
-3 J

【第596期】MIA：基于存储智能的深度研究智能体框架

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。合作邮箱：zhiwudazhanjiangshi#gmail.com 今天的主题是：Memory Intelligence Agent Summary 深度研究智能体（Deep Research Agents，DRAs）将大语言模型（LLM）的推理能力与外部工具结合起来。记忆系统使 DRAs 能够利用历史经验，而这对于高效推理和自主进化至关重要。现有方法通常依赖从记忆中检索相似的历史轨迹来辅助推理，但存在两个关键问题：记忆演化效率低，以及存储与检索成本不断增加。为了解决这些问题，我们提出了一种新的 Memory Intelligence Agent（MIA）框架，其采用 Manager–Planner–Executor（管理者–规划者–执行者）架构。 Memory Manager 是一个非参数化记忆系统，可以存储经过压缩的历史搜索轨迹。 Planner 是一个参数化记忆智能体，能够针对问题生成搜索计划。 Executor 则是另一个智能体，在搜索计划的指导下执行信息搜索与分析。为了构建 MIA 框架，我们首先采用一种交替式强化学习（alternating reinforcement learning）范式，以增强 Planner 与 Executor 之间的协同能力。此外，我们使 Planner 能够在测试时学习（test-time learning）过程中持续进化：模型更新会与推理同步在线进行，而不会中断推理过程。同时，我们还建立了参数化记忆与非参数化记忆之间的双向转换循环，从而实现高效的记忆演化。最后，我们引入了反思（reflection）机制以及无监督判断（unsupervised judgment）机制，以提升模型在开放世界环境中的推理能力和自我进化能力。在 11 个基准测试上的大量实验结果表明，MIA 相较现有方法具有明显优势。原文链接：https://arxiv.org/abs/2604.04503

29 min
-4 J

【第595期】MEMENTO：教导大语言模型自主管理推理上下文

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。合作邮箱：zhiwudazhanjiangshi#gmail.com 今天的主题是：MEMENTO: Teaching LLMs to Manage Their Own Context Summary 推理模型通常以冗长、无结构的方式进行思考，却缺乏压缩或组织其中间状态的机制。我们提出了 MEMENTO：一种教会模型将推理过程划分为多个模块（blocks）的方法。模型会把每个模块压缩成一个“memento”（记忆摘要），即一种稠密的状态总结，并且在后续推理时只关注这些 mementos，从而减少上下文长度、KV cache 占用以及计算开销。为了训练 MEMENTO 模型，我们发布了 OpenMementos：一个包含 22.8 万条推理轨迹的公开数据集。该数据集基于 OpenThoughts-v3 构建，对推理过程进行了分段，并为每个中间阶段添加了摘要标注。我们表明，基于 OpenMementos 的两阶段监督微调（SFT）方案，在不同模型家族（如 Qwen3、Phi-4、Olmo 3）以及不同规模（80 亿至 320 亿参数）上都具有良好效果。训练后的模型在数学、科学和代码基准测试上依然保持较强准确率，同时实现了约 2.5 倍的 KV cache 峰值占用降低。我们还扩展了 vLLM 以支持这种推理方法，实现了约 1.75 倍的吞吐量提升，并进一步支持强化学习（RL）训练，从而继续提高模型准确率。最后，我们发现存在一种“双重信息流”机制：每个推理模块中的信息，既通过 memento 文本传递，也通过对应的 KV 状态传递；后者会保留原始推理模块中的隐式信息。如果移除这一通道，在 AIME24 基准上的准确率会下降 15 个百分点。原文链接：https://arxiv.org/abs/2604.09852

24 min
-5 J

【第594期】Neural Computers：融合计算与存储的语义化运行态

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。合作邮箱：zhiwudazhanjiangshi#gmail.com 今天的主题是：Neural Computers Summary 我们提出了一个新的前沿方向：神经计算机（Neural Computers，NCs）。它将传统计算机中的计算、存储和输入/输出（I/O）统一到一种“学习得到的运行时状态”中。我们的长期目标是“完全神经计算机”（Completely Neural Computer，CNC）：这种新型机器形态成熟后的通用实现，具备稳定执行、显式重编程以及持久化能力复用等特性。作为第一步，我们研究：是否能够仅依赖收集到的输入/输出轨迹，而不借助程序内部状态的插桩信息，来学习基础的 NC 原语。具体而言，我们将 NC 实例化为一种视频模型，在命令行界面（CLI）和图形用户界面（GUI）环境中，根据指令、屏幕像素以及用户操作（如果可用）来逐帧生成屏幕画面。我们表明，NC 能够习得基础的界面原语，尤其是在 I/O 对齐和短时域控制方面表现出能力；但在常规能力复用、受控更新以及符号稳定性方面，仍然面临挑战。最后，我们勾勒了通向 CNC 的发展路线图，旨在建立一种超越当今智能体（agents）和传统计算机的新型计算范式。原文连接：https://arxiv.org/abs/2604.06425

16 min
-6 J

【第593期】Agent Harnesses：自然语言智能体运行框架研究

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。合作邮箱：zhiwudazhanjiangshi#gmail.com 今天的主题是：Natural-Language Agent Harnesses Summary 智能体的性能日益取决于测试框架工程（harness engineering），然而测试框架的设计通常埋藏在控制器代码和特定运行时的惯例中，导致其难以作为科学研究对象进行迁移、比较和研究。我们探讨：智能体测试框架的高层控制逻辑是否可以外化为一种可移植的可执行制品？为此，我们引入了自然语言智能体测试框架（NLAHs），它以可编辑的自然语言表达框架行为；以及智能测试框架运行时（IHR），这是一个通过明确协议、持久化制品和轻量级适配器来执行这些框架的共享运行时。通过在代码编写和计算机操作基准测试上的实验，我们对运行可行性、模块消融以及“从代码到文本”的框架迁移进行了受控评估。原文连接：https://arxiv.org/abs/2603.25723

22 min
14 MAI

【第592期】大语言模型多智能体规划的可靠性界限

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。合作邮箱：zhiwudazhanjiangshi#gmail.com 今天的主题是：On the Reliability Limits of LLM-Based Multi-Agent Planning Summary 本技术笔记探讨了基于 LLM 的多智能体规划作为一种“委托决策问题”的可靠性极限。我们将多智能体架构建模为一个有限无环决策网络。在该网络中，多个阶段处理共享的模型上下文信息，通过容量有限的语言接口进行通信，并可能引入人工审查。 1. 核心理论：中心化优于委托化我们的研究得出了一个基础性的结论：在没有引入新的外部信号的情况下，任何委托决策网络在决策论意义上，都受到一个拥有相同信息的中心化贝叶斯决策者（Centralized Bayes Decision Maker）的“支配”。这意味着，多智能体协作并不会在信息处理上产生“1+1>2”的神奇增益；相反，它更多是在受限条件下对信息的重新组织。在“共同证据（Common-evidence）”范式下，优化多智能体有向无环图（DAG）的过程，实际上可以被视为在有限通信预算下，对共享信号选择一种受限的随机实验。 2. 量化通信与压缩带来的损失我们进一步刻画了由于通信和信息压缩导致的性能损失。在适当评分规则（Proper scoring rules）下，中心化贝叶斯价值与委托决策价值之间的差距，可以用期望后验散度（Expected posterior divergence）来表示：对数损失（Logarithmic loss）：该差距简化为条件互信息（Conditional Mutual Information）。布赖尔分数（Brier score）：该差距体现为期望后验平方误差（Expected squared posterior error）。这些数学性质界定了 LLM 规划在被“分包”给多个智能体时，由于信息流转不畅而导致的可靠性天花板。 3. 实验验证通过在受控问题集上对 LLM 进行实验，我们证实了上述理论刻画。实验表明，随着通信瓶颈的加剧，多智能体系统的规划质量会严格遵循上述数学规律下降。总结：这项研究为多智能体规划泼了一盆“理性的冷水”：如果没有新的信息输入，拆分任务和增加智能体数量本质上是在进行一场有损的信息博弈。要想逼近可靠性极限，关键在于如何最小化通信过程中的信息熵损失。原文链接：https://arxiv.org/abs/2603.26993

20 min

Tout afficher (604)

73播客，名字取材于Sheldon最喜欢的数字，内容由NotebookLM生成，每天跟随AI读AI业界论文。

Création

任雨山
Années d’activité

2024 - 2026
Épisodes

604
Classification

Tous publics
Copyright

© 任雨山@小宇宙App
Site web de l’émission

Seventy3

Loisirs

Loisirs

Chaque semaine
Technologies

Technologies

Tous les jours