Seventy3

任雨山

73播客,名字取材于Sheldon最喜欢的数字,内容由NotebookLM生成,每天跟随AI读AI业界论文。

  1. 2H AGO

    【第518期】AgeMem:大语言模型智能体统一记忆管理框架

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你有自己的论文要解读,或者推荐论文,请留言。 今天的主题是:Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents Summary 由于上下文窗口长度有限,大语言模型(LLM)智能体在长时程推理(long-horizon reasoning)任务中面临根本性约束,因此高效的记忆管理机制至关重要。现有方法通常将长期记忆(LTM)与短期记忆(STM)作为相互独立的模块进行处理,并依赖启发式规则或外部控制器进行调度,这种分离式架构限制了系统的自适应能力与端到端优化潜力。 本文提出了 Agentic Memory(AgeMem),一种将长期记忆与短期记忆管理统一纳入智能体策略内部的框架。AgeMem 将记忆操作抽象为基于工具的行动(tool-based actions),使 LLM 智能体能够自主决策何时以及如何存储、检索、更新、总结或丢弃信息,从而实现对记忆资源的策略化管理。 为训练这种统一的记忆决策行为,我们提出了一种三阶段渐进式强化学习策略,并设计了逐步式 GRPO(step-wise GRPO)算法,以缓解由记忆操作引发的稀疏且不连续奖励信号问题。该方法通过细粒度策略优化,增强了记忆相关行为的可学习性与稳定性。 在五个长时程基准任务上的实验结果表明,AgeMem 在多种 LLM 主干模型(backbone)上均显著优于强基线的记忆增强方法,不仅在任务完成度方面取得提升,还实现了更高质量的长期记忆构建与更高效的上下文利用效率。 原文链接:https://arxiv.org/abs/2601.01885

    17 min
  2. 1D AGO

    【第517期】Dr. Zero:无训练数据的自进化搜索智能体

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你有自己的论文要解读,或者推荐论文,请留言。 今天的主题是:Dr. Zero: Self-Evolving Search Agents without Training Data Summary 随着高质量数据日益难以获取,无数据自进化(data-free self-evolution)逐渐成为一种具有前景的新范式。该方法使大语言模型(LLMs)能够自主生成并解决复杂问题,从而提升其推理能力。然而,多轮搜索智能体在无数据自进化过程中面临显著挑战,包括问题多样性受限,以及多步推理与工具调用所带来的高额计算开销。 在本研究中,我们提出了 Dr. Zero——一个使搜索智能体在无需任何训练数据的情况下实现有效自进化的框架。具体而言,我们构建了一个自进化反馈闭环:由一个提议者(proposer)生成多样化问题,用于训练一个由同一基础模型初始化的求解者(solver)。随着求解者能力的提升,其性能反过来激励提议者生成难度更高但仍可解的问题,从而形成一个自动化课程学习机制(automated curriculum),协同优化两个智能体。 为提高训练效率,我们进一步提出了“跳数分组相对策略优化”(hop-grouped relative policy optimization, HRPO)方法。该方法将结构相似的问题进行聚类,构建组级基线,从而有效降低对每个查询单独评估其难度与可解性的采样开销。结果表明,HRPO 在不损害性能与稳定性的前提下,显著减少了求解者训练所需的计算资源。 大量实验结果显示,在完全无数据条件下,Dr. Zero 的性能可与全监督训练的搜索智能体相当,甚至更优。这表明,复杂的推理与搜索能力可以通过纯粹的自进化机制自然涌现。 原文链接:https://arxiv.org/abs/2601.07055

    16 min
  3. 2D AGO

    【第516期】DroPE:移除位置嵌入实现大语言模型零样本上下文扩展

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你有自己的论文要解读,或者推荐论文,请留言。 今天的主题是:Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings Summary 迄今为止,要有效扩展语言模型(LM)的上下文长度,通常需要进行超出预训练序列长度范围的高成本微调。在本研究中,我们通过在训练完成后移除语言模型中的位置嵌入(Dropping the Positional Embeddings,简称 DroPE),突破了这一关键瓶颈。 该方法虽简单,却建立在三个重要的理论与实证观察之上。首先,位置嵌入(Positional Embeddings, PEs)在预训练阶段发挥着关键作用,作为一种重要的归纳偏置,能够显著促进模型收敛。其次,模型对这种显式位置信息的过度依赖,恰恰成为其在测试阶段无法泛化到未见序列长度的根本原因,即便采用主流的位置嵌入缩放方法亦难以解决这一问题。第三,位置嵌入并非高效语言建模的内在必要条件,在完成预训练后,经过一个简短的再校准阶段,便可以安全移除,而不会破坏模型能力。 在实证层面,DroPE 方法无需进行任何长上下文微调,即可实现无缝的零样本上下文扩展;同时,它能够快速适配预训练语言模型,而不会削弱其在原始训练上下文范围内的性能。实验结果表明,该方法在不同模型规模与数据规模条件下均表现稳健,显著优于以往的专用架构设计以及成熟的旋转位置嵌入(Rotary Positional Embedding)缩放方法。 原文链接:https://arxiv.org/abs/2512.12167

    15 min
  4. 3D AGO

    【第515期】Meta_AI看视频学会通用动作

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你有自己的论文要解读,或者推荐论文,请留言。 今天的主题是:Learning Latent Action World Models In The Wild Summary 量子计算的兴起对区块链系统的安全性构成了严峻挑战。作为数字签名、消息加密和哈希函数基础的传统密码算法,在量子计算机强大的计算能力面前逐渐显现出脆弱性。本文对向抗量子区块链过渡所涉及的风险进行了系统性评估,全面分析了针对区块链关键组成部分的潜在威胁,包括网络层、矿池、交易验证机制、智能合约以及用户钱包。 通过深入阐释向抗量子算法迁移过程中所固有的复杂技术挑战与战略考量,论文评估了相关风险,并重点指出在采用抗量子密码技术加固区块链组件时所面临的现实障碍。为实现从经典密码体系向抗量子密码体系的平稳演进,本文提出了一种混合迁移策略,以降低过渡期的系统性风险。 研究还将分析扩展至多个主流区块链平台,如比特币、以太坊、瑞波币、莱特币以及 Zcash,评估其易受攻击的关键组件、潜在影响以及相关的 STRIDE 威胁类型,从而识别出可能遭受量子攻击的高风险领域。 除风险分析之外,论文还为在量子计算时代构建安全、具备高韧性的区块链生态系统提供了可操作性的设计建议。鉴于量子计算机所带来的现实威胁,本研究主张主动推进向抗量子区块链网络的战略转型,并提出一套定制化安全蓝图,从体系结构层面强化各组件,以应对不断演进的量子驱动型网络安全威胁。 论文强调,区块链生态参与方亟需采取前瞻性措施并部署抗量子解决方案,以确保在量子时代背景下实现安全、稳定与可信的系统运行,并以更强的韧性与信心应对未来挑战。 原文链接:https://arxiv.org/abs/2501.11798

    20 min
  5. 4D AGO

    【第514期】量子时代区块链安全威胁与抗量子迁移策略

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你有自己的论文要解读,或者推荐论文,请留言。 今天的主题是:Blockchain Security Risk Assessment in Quantum Era, Migration Strategies and Proactive Defense Summary 量子计算的兴起对区块链系统的安全性构成了严峻挑战。作为数字签名、消息加密和哈希函数基础的传统密码算法,在量子计算机强大的计算能力面前变得脆弱。本文对向抗量子区块链过渡的风险进行了全面评估,系统分析了针对区块链关键组件的潜在威胁,包括网络层、矿池、交易验证机制、智能合约以及用户钱包。 通过阐明向抗量子算法迁移过程中所固有的复杂挑战与战略考量,本文评估了相关风险,并揭示了利用抗量子密码技术加固区块链各组成部分所面临的障碍。为实现从经典密码体系向抗量子密码体系的平稳过渡,论文提出了一种混合迁移策略。 分析范围涵盖了主流区块链平台,如比特币、以太坊、瑞波币、莱特币和Zcash,评估其易受攻击的组件、潜在影响以及相关的STRIDE威胁模型,从而识别出可能遭受量子攻击的关键领域。 除理论分析外,本文还为在量子计算时代构建安全、韧性强的区块链生态系统提供了可操作性指导。鉴于量子计算机所带来的潜在威胁,研究主张主动推进向抗量子区块链网络的转型,并提出一套定制化安全蓝图,从战略层面加固各个组件,以应对不断演变的量子驱动网络安全威胁。 论文强调,区块链相关利益方亟需采取前瞻性措施并部署抗量子解决方案,以增强系统在量子时代背景下的安全韧性与信心。 原文链接:https://arxiv.org/abs/2501.11798

    16 min
  6. 【第512期】Mimblewimble:一种可扩展且隐私的区块链支付系统方案

    6D AGO

    【第512期】Mimblewimble:一种可扩展且隐私的区块链支付系统方案

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你有自己的论文要解读,或者推荐论文,请留言。 今天的主题是:Mimblewimble Summary 2016 年 8 月 2 日凌晨约 04:30(UTC),一位使用“Tom Elvis Jedusor”这一化名的匿名人士登录了一个比特币研究 IRC 频道,发布了一份托管在 Tor 隐藏服务上的文档 [Jed16],随后立即退出。该文档题为《Mimblewimble》,描述了一种区块链方案,其交易构造方式与比特币截然不同,支持交易的非交互式合并与 cut-through 机制、机密交易(confidential transactions),以及在无需新用户验证任何单个币完整历史的情况下,对当前链状态(chainstate)进行完整验证。 然而,尽管该论文对核心思想的阐述相当详细,但并未给出安全性论证,甚至还包含一个错误。本文的目的在于对原始思想进行精确定义,并补充作者提出的进一步扩展性改进。 具体而言,Mimblewimble 能够显著压缩交易历史。如果记录与比特币当前历史等规模的交易数据,理论上需要约 15GB 的数据(不包括 UTXO 集;若将包含区间证明的 UTXO 集计算在内,则需超过 100GB)。Jedusor 留下了一个尚未解决的问题,即如何进一步减少这一数据规模;本文对此问题给出了解决方案,并结合现有关于压缩工作量证明(proof-of-work)区块链的研究成果,将 15GB 的数据规模压缩至不足 1MB。 原文链接:http://misskiwi.com/download/mimblewimble.pdf

    18 min
  7. 【第511期】深度增量学习:广义残差连接与几何变换映射

    FEB 22

    【第511期】深度增量学习:广义残差连接与几何变换映射

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你有自己的论文要解读,或者推荐论文,请留言。 今天的主题是:Deep Delta Learning Summary 深度残差网络的有效性依赖于恒等映射的捷径连接(identity shortcut connection)。尽管这种机制缓解了梯度消失问题,但其对特征变换施加了严格的加性归纳偏置(strictly additive inductive bias),从而限制了网络对复杂隐状态转移的建模能力。 在本文中,我们提出了 Deep Delta Learning(DDL),将原本固定的恒等映射捷径推广为一个可学习的、依赖状态的线性算子。该算子被称为 Delta Operator,其形式为单位矩阵的秩 1 扰动: A(X)=I−β(X)k(X)k(X)⊤ 其中,k(X) 是一个单位方向向量,β(X)β(X) 是一个标量门控参数。 我们通过谱分析(spectral analysis)表明,β(X)β(X) 可以在以下三种情形之间连续插值: 恒等映射(Identity):β=0 正交投影(Orthogonal Projection):β=1 Householder 反射(Householder Reflection):β=2此外,我们将残差更新重写为一种同步的秩 1 增量写入(synchronized rank-1 delta write):参数 ββ 同时控制当前 kk-分量的移除幅度,以及新的 kk-分量的注入幅度。这种统一表述使得模型能够沿着一个数据依赖方向,对捷径连接的谱性质进行显式控制,同时保持训练过程的稳定性。 在实证实验中,我们将 Transformer 中的残差加法替换为 DDL 机制,结果表明:在语言建模任务上,验证损失(validation loss)与困惑度(perplexity)均得到改善,下游评测准确率也有所提升;在扩展状态维度(expanded-state setting)条件下,性能增益更为显著。 原文链接:https://arxiv.org/abs/2601.00417

    20 min

About

73播客,名字取材于Sheldon最喜欢的数字,内容由NotebookLM生成,每天跟随AI读AI业界论文。