Seventy3

任雨山

73播客,名字取材于Sheldon最喜欢的数字,内容由NotebookLM生成,每天跟随AI读AI业界论文。

  1. 7小时前

    【第551期】AgentSkiller:面向通用智能体的全自动大规模合成数据框架

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis Summary 大语言模型(LLM)代理在通过工具解决现实世界问题方面展现出巨大潜力,但通用智能的进一步提升却受限于高质量、长程(long-horizon)数据的匮乏。现有方法要么收集受隐私限制的 API 日志,要么生成缺乏多样性的脚本化交互,难以产生扩展模型能力所需的数据。 我们提出了 AgentSkiller:一个全自动化的框架,用于在真实的、语义关联的领域中合成多轮交互数据。它采用基于 DAG(有向无环图) 的架构,具有明确的状态转换,以确保确定性和可恢复性。 该流水线的工作流程如下: 环境构建:构建领域本体和“以人为中心的实体图”(Person-Centric Entity Graph)。 接口定义:通过“服务蓝图”为 Model Context Protocol (MCP) 服务器定义工具接口。 数据填充:使用一致的数据库和严格的领域策略填充环境。 跨域融合:利用跨域融合机制链接不同服务,以模拟复杂任务。 任务生成:通过验证解决方案路径、执行验证过滤,并使用“基于画像的模拟器”(Persona-based Simulator)生成查询进行自动演练,从而创建用户任务。这一流程产生了具有清晰状态变化的可靠环境。为了证明其有效性,我们合成了约 1.1 万条交互样本;实验结果表明,在该数据集上训练的模型在函数调用(function calling)能力上较基准模型有显著提升,在参数规模较大的模型中表现尤为突出。 原文链接:https://arxiv.org/abs/2602.09372

    22 分钟
  2. 1天前

    【第550期】AdaptEvolve:基于置信度自适应选择的进化智能体系统

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:AdaptEvolve: Improving Efficiency of Evolutionary AI Agents through Adaptive Model Selection Summary 演化代理系统(Evolutionary agentic systems)通过在推理过程中反复调用大语言模型(LLM),加剧了计算效率与推理能力之间的权衡。在这种背景下,产生了一个核心问题:代理如何能动态地选择一个既足以胜任当前生成步骤,又能保持计算高效的 LLM? 虽然模型级联(model cascades)为平衡这种权衡提供了一种实用机制,但现有的路由策略通常依赖于静态启发式算法或外部控制器,且未显式考虑模型的不确定性。 我们提出了 AdaptEvolve:一种用于多 LLM 演化优化(Evolutionary Refinement)的自适应 LLM 选择框架。该框架在演化序列优化过程中,利用内在生成置信度(intrinsic generation confidence)来评估实时的可解性。实验结果表明,这种由置信度驱动的选择机制产生了优越的帕累托前沿(Pareto frontier):在保持静态大模型基准 97.5% 准确率上限的同时,将各基准测试的总推理成本平均降低了 37.9%。 原文链接:https://arxiv.org/abs/2602.11931

    24 分钟
  3. 2天前

    【第549期】EchoJEPA:超声心动图潜在预测基础模型

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:EchoJEPA: A Latent Predictive Foundation Model for Echocardiography Summary 超声心动图的基础模型通常难以从超声波固有的随机斑点噪声(Speckle)和采集伪影中分离出解剖信号。 我们提出了 EchoJEPA,这是一种在来自 30 万名患者的 1800 万份超声心动图上训练的基础模型,代表了迄今为止该领域最大的预训练语料库。通过利用潜变量预测目标(Latent Predictive Objective),EchoJEPA 学习到了能够忽略斑点噪声的稳健解剖表征。 我们使用一种新型的、基于冻结骨干网络的**多切面探测框架(Multi-view Probing Framework)**对其进行了验证。结果显示,EchoJEPA 在左心室射血分数(LVEF)估算方面优于领先的基准模型约 20%,在右心室收缩压(RVSP)估算方面优于基准模型约 17%。 此外,该模型表现出卓越的样本效率:仅使用 1% 的标注数据,其切面分类准确率即可达到 79%,而表现最好的基准模型在 100% 标注数据下的准确率仅为 42%。 至关重要的一点是,EchoJEPA 展示了优异的泛化能力。在受物理启发的人工声学扰动下,其性能仅下降了 2%,而竞争模型则下降了 17%。最引人注目的是,它在儿科患者上的**零样本(Zero-shot)**表现甚至超过了经过充分微调的基准模型。这证明了潜变量预测是构建稳健、泛化性强的医疗人工智能的卓越范式。 原文链接:https://arxiv.org/abs/2602.02603

    21 分钟
  4. 3天前

    【第548期】Agyn:基于多智能体协作的自主软件工程系统

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:Agyn: A Multi-Agent System for Team-Based Autonomous Software Engineering Summary 大型语言模型在处理单个软件工程任务方面展现出了卓越的能力,然而大多数自主系统仍将问题修复视为一个单一的任务或流水线过程。相比之下,现实世界的软件开发是一项由团队按照共享方法论开展的协作活动,具有清晰的角色分工、沟通和评审机制。 在这项工作中,我们展示了一个全自动多智能体系统,该系统明确地将软件工程建模为一个组织过程,复制了工程团队的结构。我们的系统构建于开源智能体团队配置平台 agyn 之上,为不同智能体分配了专门的角色(如协调、研究、实现和评审),为它们提供了用于实验的隔离沙箱,并启用了结构化沟通。该系统遵循一套既定的开发方法论来处理问题,包括分析、任务规范制定、拉取请求(PR)创建以及迭代评审,且无需任何人工干预。 值得注意的是,该系统是为实际生产环境设计的,并未针对 SWE-bench 进行特定调优。在 SWE-bench 500 的事后评估中,它解决了 72.2% 的任务,表现优于使用同类语言模型的单智能体基准测试。我们的研究结果表明,复制团队结构、方法论和沟通机制是自主软件工程的一种强大范式,未来的进展可能同样取决于组织设计和智能体基础设施,而不仅仅是模型本身的提升。 原文链接:https://arxiv.org/abs/2602.01465

    16 分钟
  5. 4天前

    【第547期】InftyThink+:基于强化学习的无限视野高效迭代推理框架

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning Summary 大型推理模型通过扩展推理时思维链(CoT)实现了强大的性能,但这种范式面临着二次方成本、上下文长度限制以及由于“迷失中间”(lost-in-the-middle)效应导致的推理能力退化。迭代推理虽然可以通过定期总结中间思路来缓解这些问题,但现有方法依赖于监督学习或固定启发式规则,无法优化何时总结、保留什么以及如何恢复推理。 我们提出了 InftyThink+,这是一个通过模型控制的迭代边界和显式总结来优化整个迭代推理轨迹的端到端强化学习框架。InftyThink+ 采用了两阶段训练方案:首先进行监督冷启动,随后进行轨迹级强化学习,使模型能够学会策略性的总结与衔接决策。 在 DeepSeek-R1-Distill-Qwen-1.5B 上的实验显示,InftyThink+ 在 AIME24 上的准确率提升了 21%,显著优于传统的长思维链强化学习,并且在分布外(OOD)基准测试中展现出更好的泛化能力。此外,InftyThink+ 大幅降低了推理延迟并加速了强化学习训练,证明了在提升性能的同时也增强了推理效率。 原文链接:https://arxiv.org/abs/2602.06960

    23 分钟
  6. 5天前

    【第546期】SKILLRL:基于递归技能增强强化学习的智能体进化

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。 合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:SKILLRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning Summary 大语言模型(LLM)智能体在复杂任务中展现了惊人的成果,但它们往往处于“孤立运行”状态,无法从过往经验中学习。现有的基于记忆的方法主要存储原始执行轨迹,而这些轨迹通常冗长且充斥着噪声,导致智能体难以提取出对泛化至关重要的、高层次且可复用的行为模式。 在本文中,我们提出了 SkillRL,这是一个通过自动技能发现与递归演化,弥合原始经验与策略改进之间鸿沟的框架。我们的方法引入了三种创新机制: 基于经验的蒸馏机制:用于构建层级化的技能库 SkillBank; 自适应检索策略:用于获取通用及任务特定的启发式信息; 递归演化机制:允许技能库在强化学习过程中与智能体的策略共同进化。这些创新在显著降低 Token 消耗的同时,提升了推理的实用性。在 ALFWorld、WebShop 以及七个搜索增强型任务上的实验结果表明,SkillRL 达到了当前最先进的性能(SOTA),优于强基准模型 15.3% 以上,并在任务复杂度增加时保持了鲁棒性。 原文链接:https://arxiv.org/abs/2602.08234

    17 分钟
  7. 6天前

    【第545期】LLaDA2.1:通过令牌编辑加速文本扩散

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。 合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:LLaDA2.1: Speeding Up Text Diffusion via Token Editing Summary 虽然 LLaDA 2.0 展示了千亿级块扩散(Block-diffusion)模型的扩展潜力及其固有的并行化优势,但在解码速度与生成质量之间寻找微妙的平衡,依然是一个难以逾越的前沿课题。今天,我们推出了 LLaDA 2.1,旨在通过范式转换超越这一权衡。 通过将 Token 到 Token(T2T)编辑无缝织入传统的掩码到 Token(M2T)方案中,我们引入了一种联合且可配置的阈值解码机制。这种结构创新催生了两种截然不同的模式: 速度模式(S Mode):大胆降低 M2T 阈值以突破传统约束,同时依赖 T2T 对输出进行细化; 质量模式(Q Mode):倾向于保守阈值,以可控的效率损耗换取卓越的基准测试表现。为了进一步推进这一演进,在超长上下文窗口的支持下,我们实现了首个专门为扩散语言模型(dLLMs)定制的大规模强化学习(RL)框架,并辅以稳定的梯度估计专门技术。这种对齐不仅提高了推理精度,还提升了指令遵循的忠实度,弥合了扩散动力学与复杂人类意图之间的鸿沟。 我们最后发布了 LLaDA 2.1-Mini (16B) 和 LLaDA 2.1-Flash (100B)。在 33 项严苛的基准测试中,LLaDA 2.1 展现了强大的任务性能和极快的解码速度。尽管拥有千亿参数规模,它在编程任务上的表现依然令人惊叹:在 HumanEval+ 上达到 892 TPS,在 BigCodeBench 上达到 801 TPS,在 LiveCodeBench 上达到 663 TPS。 原文链接:https://arxiv.org/abs/2602.08676

    19 分钟
  8. 3月27日

    【第544期】ALMA:通过元学习自动化智能体记忆设计

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。 合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:Learning to Continually Learn via Meta-learning Agentic Memory Designs Summary 基础模型的无状态性瓶颈了智能体系统持续学习的能力,而持续学习是长时程推理和自适应的核心。为了解决这一局限性,智能体系统通常结合记忆模块来保留和复用过去的经验,旨在推理阶段(Test time)实现持续学习。然而,现有的大多数记忆设计都是人工构建且固定的,这限制了它们适应现实任务多样性和非平稳性的能力。 在本文中,我们引入了 ALMA(智能体系统记忆设计的自动元学习),这是一个通过元学习生成记忆设计以取代人工设计的框架,从而最大限度地减少人力投入,并使智能体系统能够成为跨不同领域的持续学习者。 我们的方法采用了一个元智能体(Meta Agent),以开放式的方式搜索以可执行代码表达的记忆设计。从理论上讲,这允许发现任意的记忆设计,包括数据库模式及其检索和更新机制。在四个顺序决策领域的广泛实验表明,在所有基准测试中,学习到的记忆设计比目前最先进的人工记忆设计能更有效、更高效地从经验中学习。在安全开发和部署的前提下,ALMA 代表了向自强型(Self-improving)AI 系统迈出的一步,使其能够学会成为自适应的持续学习者。 原文链接:https://arxiv.org/abs/2602.07755

    23 分钟

评分及评论

3
共 5 分
2 个评分

关于

73播客,名字取材于Sheldon最喜欢的数字,内容由NotebookLM生成,每天跟随AI读AI业界论文。