Seventy3

任雨山

73播客,名字取材于Sheldon最喜欢的数字,内容由NotebookLM生成,每天跟随AI读AI业界论文。

  1. 19h ago

    【第616期】原生智能:通向自主演化智能体的元学习范式

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration Summary 当今大多数智能体(agent)通过遵循人类定义的奖励和规则来“自我进化”。然而,这一过程从根本上仍高度依赖外部监督;一旦失去人类指导,进化便会停止。在本工作中,我们训练智能体具备内在的元进化能力,使其能够在执行任务前自发地学习未知环境。为了赋予这种能力,我们设计了一种基于结果的奖励机制,该机制衡量智能体自我生成的“世界知识”能在多大程度上提升其在下游任务上的成功率。这一奖励信号仅在训练阶段使用,用于教会模型如何有效地探索和总结。在推理阶段,智能体无需任何外部奖励或人类指令,即可利用其内部参数自发进行原生自我进化(native self-evolution),从而适应未知环境。当应用于 Qwen3-30B 和 Seed-OSS-36B 时,这种向原生进化的转变在 WebVoyager 和 WebWalker 上带来了 20% 的性能提升。最引人注目的是,所生成的世界知识甚至能让一个紧凑的 14B Qwen3 模型超越未经辅助的 Gemini-2.5-Flash,确立了一种真正进化型智能体的新范式。 原文链接:https://arxiv.org/abs/2604.18131 前往小宇宙评论区与主播互动

    17 min
  2. 1d ago

    【第615期】Skill-RAG:基于状态探测与技能路由的检索增强生成

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:Skill-RAG: Failure-State-Aware Retrieval Augmentation via Hidden-State Probing and Skill Routing Summary 检索增强生成(Retrieval-Augmented Generation,RAG)已成为将大型语言模型 grounding 在外部知识上的基础范式。虽然自适应检索机制已提升了检索效率,但现有方法将检索后失败视为“重试信号”而非诊断信号——导致查询与证据之间的结构化不对齐原因始终未被解决。我们观察到,相当大一部分持续检索失败并非源于相关证据的缺失,而是源于查询与证据空间之间的对齐鸿沟。为此,我们提出 Skill-RAG,一种故障感知的 RAG 框架,它将轻量级隐状态探测器(hidden-state prober)与基于提示的技能路由器(prompt-based skill router)相结合。该探测器在流水线的两个阶段对检索进行门控;一旦检测到失败状态,技能路由器即诊断其根本原因,并从四种检索技能中选择合适的技能——查询重写(query rewriting)、问题分解(question decomposition)、证据聚焦(evidence focusing)以及针对真正不可约情况的退出技能(exit skill)——在下一次生成尝试前纠正不对齐问题。在多个开放域问答和复杂推理基准上的实验表明,Skill-RAG 显著提升了多轮检索后仍持续存在的困难案例的准确率,尤其在分布外(out-of-distribution)数据集上表现突出。表征空间分析进一步显示,所提出的这些技能在失败状态空间中占据结构化、可分离的区域,这支持了“查询-证据不对齐是一种类型化(typed)而非单一整体的现象”的观点。 原文链接:https://arxiv.org/abs/2604.15771 前往小宇宙评论区与主播互动

    25 min
  3. 2d ago

    【第614期】从Attention到Mamba:跨架构蒸馏方案

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:Attention to Mamba: A Recipe for Cross-Architecture Distillation Summary 状态空间模型(State Space Models, SSMs),例如 Mamba,由于相比基于注意力机制(Attention-based)的模型在生成阶段具有更低的内存消耗和更高的吞吐效率,近年来成为 Transformer 的一种流行替代方案。 另一方面,社区已经积累了大量关于 Transformer 训练的经验,并且有许多预训练 Transformer 模型可以直接使用。为了在利用这些预训练资源的同时促进 SSM 的采用,我们希望找到一种有效的配方(recipe),将基于 Attention 的模型蒸馏到类似 Mamba 的架构中。 然而,先前关于跨架构蒸馏(cross-architecture distillation)的研究表明,从 Transformer 到 Mamba 的朴素蒸馏方法无法很好地保留教师模型的性能,这一问题通常需要通过结合 Attention 与 SSM 模块的混合架构来缓解。 我们工作的核心观点是:如果能够为 Mamba 提供一种合理的初始化方式,就可以恢复一种更优的跨架构蒸馏方案。 为此,我们提出一种原则性的两阶段方法: 第一阶段将传统 Transformer 的知识蒸馏到一种“线性化注意力(linearized Attention)”版本中,并通过核技巧(kernel trick)的改造实现该过程。 第二阶段再将该线性化注意力模型进一步蒸馏到一个经过适配的 Mamba 模型中,该模型完全不使用 Attention 模块。 总体而言,该蒸馏得到的 Mamba 模型能够在下游任务中保持原始 Pythia-1B Transformer 的性能,其困惑度(perplexity)为 14.11,接近教师模型的 13.86。 为了验证该方法的有效性,我们在 1B 规模模型与 10B tokens 的设置下进行了系统性实验,包括: 不同序列混合器架构的消融研究 模型规模与蒸馏 token 数量的缩放分析 两阶段 token 分配比例的敏感性分析 原文链接:https://arxiv.org/abs/2604.14191 前往小宇宙评论区与主播互动

    23 min
  4. 3d ago

    【第613期】Autogenesis:A Self-Evolving Agent Protocol

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:Autogenesis: A Self-Evolving Agent Protocol Summary 近年来,基于 LLM 的智能体系统在解决复杂的长时程任务方面展现出一定潜力。然而,现有智能体协议(例如 A2A 和 MCP)在跨实体生命周期与上下文管理、版本追踪以及具备演化安全性的更新接口方面定义不足,这种不足倾向于促成单体式组合架构,并导致脆弱的“胶水代码”设计。 为此,我们提出 Autogenesis Protocol(AGP),一种自演化协议,其核心思想是将“什么在演化”(what evolves)与“如何进行演化”(how evolution occurs)进行解耦。 AGP 包含两个主要层级: 1. Resource Substrate Protocol Layer(RSPL)该层将提示词(prompts)、智能体(agents)、工具(tools)、环境(environments)以及记忆(memory)统一建模为协议注册资源(protocol-registered resources),并为其定义: 显式状态(explicit state) 生命周期(lifecycle) 版本化接口(versioned interfaces) 从而使所有系统组件都成为可管理、可追踪的协议对象。 2. Self Evolution Protocol Layer(SEPL)该层定义了一个闭环操作接口,用于: 提出改进(proposing improvements) 评估改进(assessing improvements) 合并变更(committing improvements) 并支持可审计的演化谱系(auditable lineage)与回滚机制(rollback)。 在 AGP 基础上,我们进一步提出 Autogenesis System(AGS),这是一个自演化多智能体系统,能够在执行过程中动态实例化、检索并优化协议注册的资源。 我们在多个具有挑战性的基准任务上对 AGS 进行了评估,这些任务要求在异构资源之间进行长时程规划与工具使用。实验结果表明,AGS 相较于强基线模型取得了一致性提升,验证了资源化管理与闭环自演化机制的有效性。 原文链接:https://arxiv.org/abs/2604.15034 前往小宇宙评论区与主播互动

    21 min
  5. 4d ago

    【第612期】DeepSeek-V4:高效百万长度上下文智能语言模型

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence Summary 我们提出 DeepSeek-V4 系列的预览版本,包括两款强大的混合专家(Mixture-of-Experts, MoE)语言模型: DeepSeek-V4-Pro:1.6T 参数(其中 49B 参数在推理时激活) DeepSeek-V4-Flash:284B 参数(其中 13B 参数在推理时激活) 两者均支持高达 100 万 token 的上下文长度。 DeepSeek-V4 系列在架构与优化方面包含若干关键升级: 混合注意力架构(hybrid attention architecture)结合压缩稀疏注意力(Compressed Sparse Attention, CSA)与高度压缩注意力(Heavily Compressed Attention, HCA),以提升长上下文效率; 流形约束超连接(Manifold-Constrained Hyper-Connections, mHC)用于增强传统残差连接的表达能力与稳定性; Muon 优化器提升收敛速度并增强训练稳定性。 在训练方面,我们使用超过 32 万亿(32T)多样且高质量的 token 进行预训练,并在此基础上采用完整的后训练流程,以进一步释放并增强模型能力。 在推理能力方面,DeepSeek-V4-Pro-Max(即 DeepSeek-V4-Pro 的最大推理强度模式)在开源模型中达到新的最先进水平,在核心任务上超越其前代模型。 同时,DeepSeek-V4 系列在长上下文场景中表现出极高效率: 在 100 万 token 上下文设置下,DeepSeek-V4-Pro 相比 DeepSeek-V3.2: 单 token 推理 FLOPs 仅为 27% KV cache 仅为 10% 这使得系统能够常态化支持百万 token 上下文,从而使长时程任务与进一步的测试时扩展(test-time scaling)变得更可行。 模型权重已发布在 Hugging Face:https://huggingface.co/collections/deepseek-ai/deepseek-v4 原文链接:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf 前往小宇宙评论区与主播互动

    21 min
  6. 5d ago

    【第611期】WebXSkill:面向自主网络智能体的可执行技能框架

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:WEBXSKILL: Skill Learning for Autonomous Web Agents Summary 基于大型语言模型(LLM)的自主网页智能体在执行复杂浏览器任务方面已展现出潜力,但在长时程(long-horizon)工作流上仍然存在明显困难。 一个关键瓶颈在于现有“技能(skill)”表示方式中的 grounding gap(落地鸿沟): 文本形式的 workflow skills 虽然具备自然语言层面的指导性,但无法直接执行; 基于代码的 skills 虽然可执行,但对智能体而言过于不透明,缺乏逐步语义解释,因此在错误恢复与动态适配方面能力受限。 为此,我们提出 WebXSkill,一个通过“可执行技能(executable skills)”来弥合这一鸿沟的框架。每个技能同时包含: 一个带参数化的可执行动作程序(action program); 以及逐步级别(step-level)的自然语言指导。 该设计使得技能既可以被直接执行,也可以被智能体在执行过程中进行解释与调整。 WebXSkill 包含三个阶段: 技能抽取(skill extraction)从易获取的合成智能体轨迹中挖掘可复用的动作子序列,并将其抽象为参数化技能; 技能组织(skill organization)将技能索引到一个基于 URL 的图结构中,以支持上下文感知的检索; 技能部署(skill deployment)提供两种互补模式: grounded mode:完全自动化的多步执行; guided mode:技能以分步骤指令形式呈现,由智能体结合自身规划能力执行。 在 WebArena 和 WebVoyager 基准测试上,WebXSkill 分别带来了: WebArena:任务成功率提升最高 9.8 个百分点; WebVoyager:任务成功率提升最高 12.9 个百分点。 实验结果表明,将“可执行性”与“可解释性”结合的技能表示方式,能够显著提升网页智能体在复杂任务中的表现。 原文链接:https://arxiv.org/abs/2604.13318 前往小宇宙评论区与主播互动

    25 min
  7. 6d ago

    【第610期】潜意识学习:大模型通过隐性信号传递行为特征

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:Language models transmit behavioural traits through hidden signals in data Summary 我们研究了一种被称为“潜隐学习(subliminal learning)”的惊人现象:语言模型能够通过语义上毫不相关的数据传递行为特征。 在我们的主要实验中,一个具有某种特征 T 的“教师”模型(例如喜欢猫头鹰,或存在对齐问题)会生成一个仅由数字序列构成的数据集。令人惊讶的是,一个在该数据集上训练的“学生”模型,也会学会这种特征 T。 即使对数据进行了过滤、移除了与 T 有关的显式引用,这种现象依然存在。 我们还观察到: 当训练数据是由同一教师模型生成的代码时; 或由其生成的推理轨迹(reasoning traces)时; 同样会出现这种效应。 然而,当教师模型与学生模型的基础模型(base model)不同时,我们并未观察到该现象。 为了帮助解释这一发现,我们从理论上证明:在某些条件下,所有神经网络中都会出现潜隐学习。同时,我们还在一个简单的多层感知机(MLP)分类器中演示了潜隐学习现象。 我们最终得出结论:潜隐学习是一种普遍现象,并为 AI 开发带来了一个出乎意料的风险。 例如,在模型蒸馏(distillation)过程中,即便开发者试图通过数据过滤来阻止某些行为特征传播,这些非预期特征仍可能被隐式传递给新模型。 原文链接:https://arxiv.org/abs/2507.14805 前往小宇宙评论区与主播互动

    17 min
  8. May 31

    【第609期】Auto-Diagnose:基于大语言模型的谷歌集成测试故障自动诊断

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:LLM-Based Automated Diagnosis Of Integration Test Failures At Google Summary 集成测试(integration testing)对于复杂软件系统的质量与可靠性至关重要。然而,由于其生成的日志具有海量、非结构化以及异构等特点,故障诊断面临巨大挑战。这些问题导致开发者需要承受很高的认知负担,日志中的信噪比极低,使诊断过程困难且耗时。 开发者长期以来持续抱怨这些困难,并表示,相较于单元测试失败,他们在集成测试故障诊断上花费了显著更多时间。 为了解决这些问题,我们提出了 Auto-Diagnose,一种利用大型语言模型(LLM)帮助开发者高效定位集成测试失败根因的新型诊断工具。 Auto-Diagnose 能够: 分析失败日志; 生成简洁摘要; 提取最相关的日志行; 并被集成进 Google 内部代码审查系统 Critique 中,从而提供具备上下文感知能力的实时辅助。 根据案例研究结果,Auto-Diagnose 表现出了很高的有效性。 在针对 71 个真实世界故障进行的人工评估中: 根因诊断准确率达到 90.14%。 在 Google 范围内部署后: Auto-Diagnose 被应用于 52,635 个不同的失败测试案例。 用户反馈显示: 仅有 5.8% 的情况被评价为“无帮助(Not helpful)”; 在 Critique 中发布诊断结果的 370 个工具里,其有用性排名第 14 位。 最后,用户访谈进一步证实: 开发者普遍认为 Auto-Diagnose 具有实际价值; 将自动化诊断能力集成到现有工作流中的做法获得了积极评价。 我们最终得出结论:LLM 在诊断集成测试失败方面表现优异,原因在于其具备处理和总结复杂文本数据的能力。同时,将这类 AI 驱动工具自动集成到开发者日常工作流中,整体上会获得积极接受;而工具的准确率则仍然是影响开发者认知与采用程度的关键因素。 原文链接:https://arxiv.org/abs/2604.12108 前往小宇宙评论区与主播互动

    12 min

About

73播客,名字取材于Sheldon最喜欢的数字,内容由NotebookLM生成,每天跟随AI读AI业界论文。

You Might Also Like