Seventy3

任雨山

73播客,名字取材于Sheldon最喜欢的数字,内容由NotebookLM生成,每天跟随AI读AI业界论文。

  1. 【第619期】Learning Mechanics:大模型学习力学

    20 hrs ago

    【第619期】Learning Mechanics:大模型学习力学

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:There Will Be a Scientific Theory of Deep Learning Summary 在这篇论文中,我们论证了深度学习科学理论正在浮现。我们所说的理论,是指一种能够表征神经网络训练过程、隐藏表示、最终权重以及性能等重要属性与统计特征的理论。我们汇集了当前深度学习理论研究的主要方向,并确定了指向该理论的五个不断壮大的研究领域: (a) 可解的理想化设置:为现实系统中的学习动力学提供直观理解; (b) 可微解的极限(可积极限):揭示对基本学习现象的深入洞察; (c) 简单的数学定律:捕捉重要的宏观可观测属性; (d) 超参数理论:将超参数与训练过程的其他部分解耦,从而留下更简单的系统; (e) 跨系统和设置共享的通用行为:阐明哪些现象需要做出解释。 综合来看,这些研究领域具有某些共同的宏观特征:它们关注训练过程的动力学;它们主要寻求描述粗粒度的聚合统计数据;并且它们强调可证伪的定量预测。我们认为,这种正在浮现的理论最好被视为一种“学习过程的力学”,并建议将其命名为学习力学(Learning mechanics)。 我们讨论了这种力学视角与构建深度学习理论的其他方法(包括统计学和信息论视角)之间的关系。特别是,我们预见到了学习力学与机械可解释性(Mechanistic interpretability)之间存在着共生关系。 我们还审查并回应了关于基础理论不可能实现或不重要的常见论点。最后,我们描绘了学习力学中重要的开放方向,并为初学者提供了建议。我们在 this http URL 上提供了更多的入门材料、视角和开放问题。 原文链接:https://arxiv.org/abs/2604.21691 前往小宇宙评论区与主播互动

    21 min
  2. 1 day ago

    【第618期】无状态决策记忆:企业级AI智能体架构

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:Stateless Decision Memory for Enterprise AI Agents Summary 在受监管领域(如保险核保、理赔裁决、税务稽查)中,企业级长周期决策智能体的部署目前仍由检索增强管道(Retrieval-augmented pipelines,即 RAG)主导,尽管过去十年中涌现出了越来越多尖端的有状态记忆架构(Stateful memory architectures)。我们认为,这反映了一个隐藏的核心需求:受监管领域的部署高度依赖四项系统属性——确定性回放(Deterministic replay)、可审计的推导过程(Auditable rationale)、多租户隔离(Multi-tenant isolation)以及用于水平扩展的无状态性(Statelessness for horizontal scale)——而有状态架构在架构设计上就违背了这些属性。 为此,我们提出了确定性投影记忆(Deterministic Projection Memory,简称 DPM):它由一个仅允许追加的事件日志(Append-only event log)以及在决策时生成的一个基于任务条件的投影(Task-conditioned projection)组成。 在 3 种不同的记忆预算(Memory budgets)和 10 个受监管决策案例的测试中: 在预算充裕时,DPM 的表现与基于摘要的记忆架构(Summarization-based memory)相当。 在预算受限时,DPM 的优势显著:在 20 倍的压缩率下,DPM 将事实精准度(Factual precision)提升了 +0.52(Cohen's h=1.17, p=0.0014),将推理连贯性(Reasoning coherence)提升了 +0.53(h=1.13, p=0.0034;配对置换检验,n=10)。 在性能与成本方面,在预算受限时,DPM 的速度快了 7-15 倍,因为它在决策时只需进行 1 次大语言模型(LLM)调用,而不是 N 次。 在温度(Temperature)设为 0、每个案例重复运行 10 次的确定性研究中,结果显示两种架构都会继承 API 层面残留的非确定性,但两者的不对称性是结构性的:DPM 仅暴露 1 次非确定性调用,而摘要架构则会暴露 N 次复合(滚雪球式)调用。 审计范围(Audit surface)同样遵循这种 1 对 N 的模式:在 LongHorizon-Bench 基准测试中,DPM 每次决策仅记录 2 次 LLM 调用,而摘要架构则会记录 83-97 次。 最后,我们提出了 TAMS(一种供从业者进行架构选择的启发式方法),并对有状态记忆在企业运行条件下的失效模式进行了分析。本文的核心贡献在于指出:无状态性是解释企业为何偏好性能较弱但可回放的检索管道的核心支撑属性;同时,DPM 证明了在不承受检索带来的决策性能损失的前提下,这种无状态属性是完全可以实现的。 原文链接:https://arxiv.org/abs/2604.20158 前往小宇宙评论区与主播互动

    28 min
  3. 2 days ago

    【第617期】自动演化EDA工具:多智能体自进化ABC

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:Autonomous Evolution of EDA Tools: Multi-Agent Self-Evolved ABC Summary 本文提出了首个自进化逻辑综合框架,该框架利用大语言模型(LLM)智能体自主改进广为采用的逻辑综合系统 \textsc{ABC} 的源代码。我们的框架直接作用于整个集成 ABC 代码库,输出的代码仓库保持其单二进制执行模型和命令行接口不变。在初始进化周期中,我们使用现有的开源综合组件进行系统引导,涵盖流程调优、逻辑最小化与工艺映射等内容,但未手动注入任何新启发式算法。在此基础上,由 LLM 驱动的智能体团队根据统一的“编程指导”提示,在正确性与 QoR(结果质量)驱动的评估闭环下,迭代地重写和进化 ABC 的特定子组件。每个进化周期都会提出代码修改建议、编译集成二进制文件、验证正确性,并在一系列多套基准测试集(包括 ISCAS~85/89/99、VTR、EPFL 和 IWLS~2005)上评估 QoR。通过持续反馈,该系统能够发现超越人类设计启发式的优化方案,自主学习新的综合策略并提升 QoR。我们详细介绍了这一自改进系统的架构、与 \textsc{ABC} 的集成方式,以及实验结果。结果表明,该框架能够在百万行规模的完整 EDA 工具上实现自主、持续的性能提升。 原文链接:https://arxiv.org/abs/2604.15082 前往小宇宙评论区与主播互动

    23 min
  4. 3 days ago

    【第616期】原生智能:通向自主演化智能体的元学习范式

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration Summary 当今大多数智能体(agent)通过遵循人类定义的奖励和规则来“自我进化”。然而,这一过程从根本上仍高度依赖外部监督;一旦失去人类指导,进化便会停止。在本工作中,我们训练智能体具备内在的元进化能力,使其能够在执行任务前自发地学习未知环境。为了赋予这种能力,我们设计了一种基于结果的奖励机制,该机制衡量智能体自我生成的“世界知识”能在多大程度上提升其在下游任务上的成功率。这一奖励信号仅在训练阶段使用,用于教会模型如何有效地探索和总结。在推理阶段,智能体无需任何外部奖励或人类指令,即可利用其内部参数自发进行原生自我进化(native self-evolution),从而适应未知环境。当应用于 Qwen3-30B 和 Seed-OSS-36B 时,这种向原生进化的转变在 WebVoyager 和 WebWalker 上带来了 20% 的性能提升。最引人注目的是,所生成的世界知识甚至能让一个紧凑的 14B Qwen3 模型超越未经辅助的 Gemini-2.5-Flash,确立了一种真正进化型智能体的新范式。 原文链接:https://arxiv.org/abs/2604.18131 前往小宇宙评论区与主播互动

    17 min
  5. 4 days ago

    【第615期】Skill-RAG:基于状态探测与技能路由的检索增强生成

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:Skill-RAG: Failure-State-Aware Retrieval Augmentation via Hidden-State Probing and Skill Routing Summary 检索增强生成(Retrieval-Augmented Generation,RAG)已成为将大型语言模型 grounding 在外部知识上的基础范式。虽然自适应检索机制已提升了检索效率,但现有方法将检索后失败视为“重试信号”而非诊断信号——导致查询与证据之间的结构化不对齐原因始终未被解决。我们观察到,相当大一部分持续检索失败并非源于相关证据的缺失,而是源于查询与证据空间之间的对齐鸿沟。为此,我们提出 Skill-RAG,一种故障感知的 RAG 框架,它将轻量级隐状态探测器(hidden-state prober)与基于提示的技能路由器(prompt-based skill router)相结合。该探测器在流水线的两个阶段对检索进行门控;一旦检测到失败状态,技能路由器即诊断其根本原因,并从四种检索技能中选择合适的技能——查询重写(query rewriting)、问题分解(question decomposition)、证据聚焦(evidence focusing)以及针对真正不可约情况的退出技能(exit skill)——在下一次生成尝试前纠正不对齐问题。在多个开放域问答和复杂推理基准上的实验表明,Skill-RAG 显著提升了多轮检索后仍持续存在的困难案例的准确率,尤其在分布外(out-of-distribution)数据集上表现突出。表征空间分析进一步显示,所提出的这些技能在失败状态空间中占据结构化、可分离的区域,这支持了“查询-证据不对齐是一种类型化(typed)而非单一整体的现象”的观点。 原文链接:https://arxiv.org/abs/2604.15771 前往小宇宙评论区与主播互动

    25 min
  6. 5 days ago

    【第614期】从Attention到Mamba:跨架构蒸馏方案

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:Attention to Mamba: A Recipe for Cross-Architecture Distillation Summary 状态空间模型(State Space Models, SSMs),例如 Mamba,由于相比基于注意力机制(Attention-based)的模型在生成阶段具有更低的内存消耗和更高的吞吐效率,近年来成为 Transformer 的一种流行替代方案。 另一方面,社区已经积累了大量关于 Transformer 训练的经验,并且有许多预训练 Transformer 模型可以直接使用。为了在利用这些预训练资源的同时促进 SSM 的采用,我们希望找到一种有效的配方(recipe),将基于 Attention 的模型蒸馏到类似 Mamba 的架构中。 然而,先前关于跨架构蒸馏(cross-architecture distillation)的研究表明,从 Transformer 到 Mamba 的朴素蒸馏方法无法很好地保留教师模型的性能,这一问题通常需要通过结合 Attention 与 SSM 模块的混合架构来缓解。 我们工作的核心观点是:如果能够为 Mamba 提供一种合理的初始化方式,就可以恢复一种更优的跨架构蒸馏方案。 为此,我们提出一种原则性的两阶段方法: 第一阶段将传统 Transformer 的知识蒸馏到一种“线性化注意力(linearized Attention)”版本中,并通过核技巧(kernel trick)的改造实现该过程。 第二阶段再将该线性化注意力模型进一步蒸馏到一个经过适配的 Mamba 模型中,该模型完全不使用 Attention 模块。 总体而言,该蒸馏得到的 Mamba 模型能够在下游任务中保持原始 Pythia-1B Transformer 的性能,其困惑度(perplexity)为 14.11,接近教师模型的 13.86。 为了验证该方法的有效性,我们在 1B 规模模型与 10B tokens 的设置下进行了系统性实验,包括: 不同序列混合器架构的消融研究 模型规模与蒸馏 token 数量的缩放分析 两阶段 token 分配比例的敏感性分析 原文链接:https://arxiv.org/abs/2604.14191 前往小宇宙评论区与主播互动

    23 min
  7. 6 days ago

    【第613期】Autogenesis:A Self-Evolving Agent Protocol

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:Autogenesis: A Self-Evolving Agent Protocol Summary 近年来,基于 LLM 的智能体系统在解决复杂的长时程任务方面展现出一定潜力。然而,现有智能体协议(例如 A2A 和 MCP)在跨实体生命周期与上下文管理、版本追踪以及具备演化安全性的更新接口方面定义不足,这种不足倾向于促成单体式组合架构,并导致脆弱的“胶水代码”设计。 为此,我们提出 Autogenesis Protocol(AGP),一种自演化协议,其核心思想是将“什么在演化”(what evolves)与“如何进行演化”(how evolution occurs)进行解耦。 AGP 包含两个主要层级: 1. Resource Substrate Protocol Layer(RSPL)该层将提示词(prompts)、智能体(agents)、工具(tools)、环境(environments)以及记忆(memory)统一建模为协议注册资源(protocol-registered resources),并为其定义: 显式状态(explicit state) 生命周期(lifecycle) 版本化接口(versioned interfaces) 从而使所有系统组件都成为可管理、可追踪的协议对象。 2. Self Evolution Protocol Layer(SEPL)该层定义了一个闭环操作接口,用于: 提出改进(proposing improvements) 评估改进(assessing improvements) 合并变更(committing improvements) 并支持可审计的演化谱系(auditable lineage)与回滚机制(rollback)。 在 AGP 基础上,我们进一步提出 Autogenesis System(AGS),这是一个自演化多智能体系统,能够在执行过程中动态实例化、检索并优化协议注册的资源。 我们在多个具有挑战性的基准任务上对 AGS 进行了评估,这些任务要求在异构资源之间进行长时程规划与工具使用。实验结果表明,AGS 相较于强基线模型取得了一致性提升,验证了资源化管理与闭环自演化机制的有效性。 原文链接:https://arxiv.org/abs/2604.15034 前往小宇宙评论区与主播互动

    21 min
  8. 3 June

    【第612期】DeepSeek-V4:高效百万长度上下文智能语言模型

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence Summary 我们提出 DeepSeek-V4 系列的预览版本,包括两款强大的混合专家(Mixture-of-Experts, MoE)语言模型: DeepSeek-V4-Pro:1.6T 参数(其中 49B 参数在推理时激活) DeepSeek-V4-Flash:284B 参数(其中 13B 参数在推理时激活) 两者均支持高达 100 万 token 的上下文长度。 DeepSeek-V4 系列在架构与优化方面包含若干关键升级: 混合注意力架构(hybrid attention architecture)结合压缩稀疏注意力(Compressed Sparse Attention, CSA)与高度压缩注意力(Heavily Compressed Attention, HCA),以提升长上下文效率; 流形约束超连接(Manifold-Constrained Hyper-Connections, mHC)用于增强传统残差连接的表达能力与稳定性; Muon 优化器提升收敛速度并增强训练稳定性。 在训练方面,我们使用超过 32 万亿(32T)多样且高质量的 token 进行预训练,并在此基础上采用完整的后训练流程,以进一步释放并增强模型能力。 在推理能力方面,DeepSeek-V4-Pro-Max(即 DeepSeek-V4-Pro 的最大推理强度模式)在开源模型中达到新的最先进水平,在核心任务上超越其前代模型。 同时,DeepSeek-V4 系列在长上下文场景中表现出极高效率: 在 100 万 token 上下文设置下,DeepSeek-V4-Pro 相比 DeepSeek-V3.2: 单 token 推理 FLOPs 仅为 27% KV cache 仅为 10% 这使得系统能够常态化支持百万 token 上下文,从而使长时程任务与进一步的测试时扩展(test-time scaling)变得更可行。 模型权重已发布在 Hugging Face:https://huggingface.co/collections/deepseek-ai/deepseek-v4 原文链接:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf 前往小宇宙评论区与主播互动

    21 min

About

73播客,名字取材于Sheldon最喜欢的数字,内容由NotebookLM生成,每天跟随AI读AI业界论文。

You Might Also Like