Seventy3

任雨山

73播客,名字取材于Sheldon最喜欢的数字,内容由NotebookLM生成,每天跟随AI读AI业界论文。

  1. 6H AGO

    【第538期】TinyLoRA:仅需13个参数的学习推理之旅

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。 合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:Learning to Reason in 13 Parameters Summary 最近的研究表明,语言模型可以通过强化学习(RL)学会“推理”。虽然部分研究采用低秩参数化来实现推理能力,但传统的 LoRA 无法将秩降低到模型维度以下。 我们质疑:即便秩为 1(Rank=1)的 LoRA 是否也是学习推理所必需的?为此,我们提出了 TinyLoRA。这是一种能将低秩适配器(Adapters)缩减至仅有一个参数规模的方法。 在这一全新的参数化框架下,我们仅通过训练 13 个 bf16 格式的参数(总计 26 字节),就能使 8B 规模的 Qwen2.5 模型在 GSM8K 测试集上达到 91% 的准确率。我们发现这一趋势具有普适性:在 AIME、AMC 和 MATH500 等一系列更具挑战性的“学习推理”基准测试中,我们仅需训练少 1000 倍的参数,即可恢复 90% 的性能提升。 值得注意的是,这种极强的性能表现仅能通过强化学习(RL)实现:使用有监督微调(SFT)训练的模型,若要达到相同的性能水平,所需的参数更新量要比前者大 100 到 1000 倍。 原文链接:https://arxiv.org/abs/2602.04118

    13 min
  2. 1D AGO

    【第537期】AI攻克埃尔德什数学难题进展报告

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。 合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erdős Problems Summary 我们展示了一项关于半自动数学发现的案例研究,利用 Gemini 对 Bloom 的“埃尔多斯问题”(Erdős Problems)数据库中 700 个标记为“未解决”(Open)的猜想进行了系统评估。我们采用了混合方法论:首先通过 AI 驱动的自然语言验证来缩小搜索空间,随后由人类专家评估其正确性与新颖性。 我们处理了数据库中标记为“未解决”的 13 个问题:其中 5 个通过看似新颖的自主解法完成,另外 8 个则通过识别现有文献中的既有解法完成。我们的研究结果表明,这些问题的“未解决”状态更多是因为其冷僻程度而非难度。 此外,我们还识别并讨论了在大规模应用 AI 处理数学猜想时出现的问题,重点指出了文献检索的困难以及 AI 存在“潜意识剽窃”的风险。最后,我们对 AI 辅助攻克埃尔多斯问题的经验教训进行了反思。 原文链接:https://arxiv.org/abs/2601.22401

    19 min
  3. 2D AGO

    【第536期】【shownotes彩蛋】让AI给自己当家教

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是:Self-Improving Pretraining: using post-trained models to pretrain better models Summary 确保大语言模型生成内容的安全性、事实性及整体质量是一项严峻挑战,尤其是在这些模型日益广泛应用于现实场景的背景下。目前解决这些问题的主流方法是收集昂贵且精心策划的数据集,并进行多阶段的微调与对齐。然而,即便采用如此复杂的流程,也无法保证能彻底纠正模型在预训练阶段习得的模式。 因此,在预训练阶段解决这些问题至关重要,因为预训练塑造了模型的核心行为,并能从源头上防止不安全或幻觉输出的根深蒂固。为了应对这一挑战,我们提出了一种全新的预训练方法:通过流式处理文档,并利用强化学习(RL)在每一步优化后续生成的 K 个 Token。 该方法引入一个强大的后验模型,对包括模型预测序列(Rollouts)、原始后缀及重写后缀在内的候选生成内容进行评分,评估其质量、安全性与事实性。在训练初期,该过程依赖于原始和重写的后缀;随着模型能力的提升,强化学习将奖励高质量的模型预测序列。这种方法从底层构建了更高质量、更安全且更具事实性的模型。 实验表明,与标准预训练相比,我们的方法在事实性和安全性方面分别带来了 36.2% 和 18.5% 的相对提升,在整体生成质量的胜率上最高提升了 86.3%。 原文链接:https://arxiv.org/abs/2601.21343

    17 min
  4. 3D AGO

    【第535期】SDPO:通过自我蒸馏强化丰富反馈学习

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你有自己的论文要解读,或者推荐论文,请留言。 今天的主题是:Reinforcement Learning via Self-Distillation Summary 大型语言模型越来越多地在可验证领域(如代码与数学)中通过强化学习后训练。然而,当前用于具有可验证奖励的强化学习(RLVR)的方法通常只从每次尝试得到的单一标量结果奖励中学习,从而造成了严重的信用分配(credit assignment)瓶颈。事实上,许多可验证环境能够提供丰富的文本反馈,例如运行时错误信息或评测器(judge)的评估,这些反馈可以解释一次尝试为何失败。我们将这一设定形式化为具有丰富反馈的强化学习(reinforcement learning with rich feedback),并提出 Self-Distillation Policy Optimization(SDPO)。该方法能够在无需外部教师模型或显式奖励模型的情况下,将token 化的反馈转化为密集的学习信号。SDPO 将当前模型在给定反馈条件下的输出视为一种自教师(self-teacher),并把其基于反馈生成的下一 token 预测蒸馏回策略模型中。通过这种方式,SDPO 利用模型在上下文中事后识别自身错误的能力来进行学习。在科学推理、工具使用以及 LiveCodeBench v6 上的竞赛编程任务中,SDPO 相较于强基线 RLVR 方法,在样本效率和最终准确率方面均取得了提升。值得注意的是,在仅返回标量反馈的标准 RLVR 环境中,SDPO 仍然优于基线方法,因为它能够利用成功的 rollout 作为对失败尝试的隐式反馈。最后,当在测试时对单个问题应用 SDPO时,该方法还能加速在困难的二值奖励任务中的解发现过程:与 best-of-k 采样 或 多轮对话策略相比,SDPO 仅需 约三分之一的尝试次数就能达到相同的解发现概率。 原文链接:https://arxiv.org/abs/2601.20802

    17 min
  5. 【第534期】VibeTensor:AI智能体全生成的深度学习系统软件

    4D AGO

    【第534期】VibeTensor:AI智能体全生成的深度学习系统软件

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你有自己的论文要解读,或者推荐论文,请留言。 今天的主题是:VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents Summary VIBETENSOR 是一个用于深度学习的开源研究型系统软件栈,由 LLM 驱动的编程智能体在人类高层指导下生成。在本文中,“完全生成(fully generated)”指的是代码来源:实现变更由智能体提出补丁(diff)并应用;验证则依赖智能体执行的构建、测试以及差异检查,而不是对每一次变更进行人工逐条审查。 该系统实现了一个 类 PyTorch 的即时执行(eager)张量库:核心使用 C++20(CPU + CUDA) 实现,并通过 nanobind 提供一个 类似 torch 的 Python 封装层,同时还包含一个实验性的 HTTP URL 接口。不同于仅提供薄封装(thin bindings)的方案,VIBETENSOR 还包含: 自有的 tensor / storage 系统 schema-lite 调度器(dispatcher) 反向模式自动求导(reverse-mode autograd) CUDA 运行时组件(streams / events / graphs) 一个按 stream 顺序工作的缓存分配器,并带有诊断功能 一个稳定的 C ABI,用于动态加载算子插件我们将这一发布视为 AI 辅助软件工程的一个里程碑:它表明编程智能体能够生成一个结构连贯的深度学习运行时系统,其范围从语言绑定一直延伸到 CUDA 内存管理,并主要通过构建和测试完成验证。 本文介绍了系统架构,总结了用于生成和验证该系统的工作流程,并对该工件进行了评估。我们报告了代码仓库规模与测试套件组成,并总结了来自一个AI 生成的内核套件的可复现微基准测试结果,其中包括 融合注意力(fused attention) 与 PyTorch 的 SDPA / FlashAttention 的对比。 此外,我们还报告了在 NVIDIA H100(Hopper,SM90) 与 Blackwell 级 GPU 上进行的三个小规模端到端训练任务的基本可行性测试(sequence reversal、ViT、miniGPT)。多 GPU 结果仅在 Blackwell 平台上提供,并使用一个可选的基于 CUTLASS 的 ring-allreduce 插件,该插件需要 CUDA 13+ 与 sm103a 工具链支持。 最后,我们讨论了在生成式系统软件中可能出现的失败模式,其中包括一种被称为 “Frankenstein 组合效应” 的问题:即多个在局部上正确的子系统组合在一起时,可能导致整体性能表现不佳。 原文链接:https://arxiv.org/abs/2601.16238

    19 min
  6. 【第533期】AI辅助对编程技能形成的冲击研究

    5D AGO

    【第533期】AI辅助对编程技能形成的冲击研究

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你有自己的论文要解读,或者推荐论文,请留言。 今天的主题是:How AI Impacts Skill Formation Summary AI 辅助在各类专业领域中带来了显著的生产力提升,尤其对新手从业者更为明显。然而,这种辅助如何影响人们发展有效监督 AI 所需的技能,目前仍不清楚。对于需要完成不熟悉任务的新手来说,如果过度依赖 AI,可能会在这一过程中削弱自身的技能习得。 我们通过随机对照实验,研究开发者在有 AI 辅助与无 AI 辅助的情况下,如何掌握一个新的异步编程库。研究发现,使用 AI 会削弱参与者的概念理解、代码阅读能力以及调试能力,而平均来看并未带来显著的效率提升。 那些完全将编码任务委托给 AI的参与者确实获得了一定的生产力提升,但代价是未能真正学习该编程库。 我们识别出 六种不同的 AI 交互模式,其中 三种涉及认知参与,即使参与者获得 AI 辅助,也能够保持良好的学习效果。 研究结果表明,AI 带来的生产力提升并不是通往能力提升的捷径。在将 AI 辅助纳入工作流程时应谨慎设计,以保护技能的形成——尤其是在安全关键领域。 原文链接:https://arxiv.org/abs/2601.20245

    18 min
  7. 6D AGO

    【第532期】词元级过滤切除AI危险知识

    Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你有自己的论文要解读,或者推荐论文,请留言。 今天的主题是:Shaping capabilities with token-level data filtering Summary 当前减少语言模型不良能力的方法大多是事后处理(post hoc)的,因此很容易被对抗者绕过。一种更自然的替代方案是在预训练阶段就对能力进行塑造。以移除医疗相关能力这一代理任务为例,我们表明,仅通过过滤预训练数据这一简单干预,就能够在大规模情况下实现高度有效、稳健且成本低廉的效果。 受到数据归因(data attribution)相关研究的启发,我们进一步表明,与过滤文档相比,过滤 token 更为有效:在对不希望出现的能力造成同等抑制效果的同时,对正常能力的影响更小。 通过训练跨越两个数量级规模的模型,我们还展示了:随着模型规模增大,过滤策略的效果也会增强。在我们最大的模型上,token 级过滤会使模型在“需要遗忘的领域(forget domain)”上的计算效率降低 7000 倍。我们还表明,通过 token 过滤训练得到的模型,依然可以在该遗忘领域上进行对齐。 在这一过程中,我们提出了一种方法:利用稀疏自编码器(sparse autoencoders)对 token 进行标注,并蒸馏出低成本且高质量的分类器。我们还证明,只要预训练计算量足够,过滤方法在存在噪声标签的情况下依然具有鲁棒性。 原文链接:https://arxiv.org/abs/2601.21571

    16 min

About

73播客,名字取材于Sheldon最喜欢的数字,内容由NotebookLM生成,每天跟随AI读AI业界论文。