Daily LLM Papers

iMYorz

让AI来聊一聊最新的大模型领域论文/报告。

  1. 2025/09/19

    腾讯AI Lab的“角色中心”:十亿虚拟角色如何驱动AI生成数据

    Scaling Synthetic Data Creation with 1,000,000,000 Personas Persona Hub 是一个包含 10亿个多样化角色(persona) 的集合,这些角色是从海量网络数据中自动整理出来的。这些角色约占世界总人口的13%。Persona Hub中的每个角色都被视为世界知识的分布式载体,与独特的知识、经验、兴趣、个性和职业相关联。从压缩的角度来看,Persona Hub(约10^10个token)可以被看作是将用于训练大型语言模型(LLM)的公共网络文本(约10^14个token)压缩成分布式载体的形式。 Persona Hub 通过引入一种新颖的角色驱动数据合成方法,彻底改变了LLM的合成数据创建。 以下是 Persona Hub 如何实现这一革命性变革的详细说明: 1. 解决多样性和可扩展性挑战: ◦ 以往的合成数据创建方法,如“实例驱动”和“关键点驱动”,在扩展多样性方面面临挑战。实例驱动方法受限于种子语料库的规模,难以超越其多样性。关键点驱动方法则难以枚举所有不同粒度的关键点,除非仅限于狭窄领域。 ◦ Persona Hub 的角色驱动方法克服了这些限制,通过将角色添加到数据合成提示中,引导LLM从相应视角创建独特的合成数据。由于几乎所有LLM用例都可以与特定角色关联,因此只要构建一个全面的角色集合,就可以大规模创建包罗万象的合成数据。Persona Hub 的10亿个角色可以充分利用LLM中封装的几乎所有视角,从而大规模地促进各种场景下多样化合成数据的创建。 2. Persona Hub 的构建方式: ◦ Persona Hub 采用两种可扩展的方法从海量网络数据中获取多样化角色:文本到角色(Text-to-Persona) 和 角色到角色(Persona-to-Persona)。 ◦ 文本到角色:通过提示LLM“谁可能[阅读|撰写|喜欢|不喜欢|...]此文本?”,从任何文本中推断出相应的角色。输入文本的细节程度可以影响生成角色描述的粒度,例如,从数学教科书或超导学术论文中提取的文本会产生更具体和细致的角色描述。 ◦ 角色到角色:用于补充文本到角色方法可能难以触及的低可见度角色(例如,儿童、乞丐或电影幕后工作人员),通过利用角色间的人际关系来派生新角色。例如,通过提示LLM“谁与给定角色关系密切?”,可以从儿科护士的角色派生出儿童的角色。 ◦ 为了确保多样性,Persona Hub 还通过 MinHash 和基于嵌入的去重方法,以0.9的相似度阈值进行去重,最终收集了超过10亿个角色。 3. 广泛的应用场景和潜力: ◦ Persona Hub 能够促进大规模创建各种高质量的合成数据,包括: ▪ 数学和逻辑推理问题:可以通过结合不同专业背景的角色(例如,化学动力学研究员、语言学家、数学教师、数学教授)来生成多样化、特定领域甚至奥林匹克级别的数学问题。例如,一个语言学家角色可以生成计算语言学背景下的几何问题。 ▪ 指令(用户提示):Persona Hub 可用于模拟各种真实用户,预测他们对LLM的典型请求,生成多样化的用户指令。这些指令可用于增强LLM的指令遵循和对话能力,甚至可以模拟两人之间的对话。 ▪ 知识丰富文本:通过让LLM扮演 Persona Hub 中的角色来撰写类似 Quora 文章的文本,可以引发LLM相应领域的知识和视角,从而生成大量涵盖广泛主题和不同粒度的知识丰富内容。 ▪ 游戏NPCs(非玩家角色):将 Persona Hub 中的真实世界角色投射到游戏世界中的人物,大大减少游戏设计过程中NPC构思的工作量,例如为《魔兽世界》或《天涯明月刀》创建NPC。 ▪ 工具(函数)开发:Persona Hub 能够预测用户可能需要的工具,从而预先构建这些工具(函数),使LLM能够直接调用预构建工具来响应类似请求,而不是每次都从头构建。 4. 对LLM研究和开发的深远影响: ◦ 数据创建范式转变:Persona Hub 使得LLM不再局限于处理现有数据,而是能够从多重视角创建各种类型的新数据,从而推动数据创建从主要由人类完成转向LLM也能大规模完成的范式转变。这有望消除数据瓶颈,将缩放定律推向极限。 ◦ 现实模拟:10亿个角色可以代表现实世界中的各种个体,通过模拟和推断真实用户的潜在需求和行为,LLM可以自主准备未来的用例,并有效模拟真实世界。这有助于预测产品发布后的用户反应、新法规的公众响应,甚至在沙盒环境、在线游戏或元宇宙中维持一个组织良好的虚拟社会。 ◦ LLM的“完全记忆访问”:Persona Hub 中的10亿个角色可以触及LLM中编码的几乎所有视角和信息,从而将LLM的综合记忆(参数)转化为文本形式的合成数据,提供了访问LLM全部记忆的潜在机会。 ◦ 性能提升的验证:通过使用1.07M个合成数学问题对一个7B的LLM(Qwen2-7B)进行微调,该模型在MATH基准测试中取得了64.9%的准确率,达到了GPT-4-turbo-preview的水平,这在仅7B规模的模型上是令人印象深刻的。此外,合成的数学问题有效率高达96.5%。 Persona Hub 提供了一种通用、可扩展、灵活且易于使用的数据合成引擎,有望在合成数据创建和应用方面带来范式转变,并对LLM的研究和开发产生深远影响。

    22 分钟
  2. 2025/09/10

    推理加速:RASD 和 REFRAG 深度解析

    REFRAG (REpresentation For RAG) 和 RASD (Retrieval-Augmented Speculative Decoding) 都是旨在提高大型语言模型 (LLM) 推理效率的方法,但它们关注的方面和实现机制有所不同: 核心目标和解决的问题:REFRAG:主要目标是解决RAG应用中长上下文输入带来的显著系统延迟和对键值 (KV) 缓存的大量内存需求,从而提高吞吐量并解决知识丰富与系统效率之间的基本权衡问题。它特别关注首个token生成时间 (TTFT) 的优化。REFRAG提出,RAG上下文通常信息稀疏,且检索到的段落之间的交叉注意力模式呈块对角线状,因此大部分计算是不必要的。RASD:旨在通过引入检索方法来增强基于模型的推测解码 (speculative decoding),从而加速LLM的推理过程。推测解码通过生成草稿token供目标模型验证,显著提高了LLM推理的计算并行性。RASD的核心在于解决传统草稿模型在域外场景中效率低下以及草稿阶段耗时导致验证步长上限低的问题。 实现机制:REFRAG:通过压缩 (Compress)、感知 (Sense) 和扩展 (Expand) 上下文表示来优化效率。压缩:不直接使用检索到的段落中的所有token作为输入,而是利用预先计算的、压缩的块嵌入 (compressed chunk embeddings) 作为近似表示,并直接将这些嵌入馈送给解码器。这缩短了解码器输入长度,重用了检索过程中的计算,并将注意力计算复杂度从与token数量的平方关系降低到与块数量的平方关系。感知/选择性压缩:通过一个轻量级的强化学习 (RL) 策略来选择性地确定何时需要完整的块token输入,以及何时低成本的近似块嵌入就足够。RL策略以“下一段落预测困惑度”作为负奖励来指导,以决定哪些块应以原始形式保留。扩展:引入选择性token压缩功能,通过将重要的上下文块未压缩地扩展来改进答案预测,而将不那么关键的片段进行压缩。架构:由一个仅解码器基础模型(如LLaMA)和一个轻量级编码器模型(如Roberta)组成。RASD:通过检索过程 (Retrieval Process)、检索树剪枝 (Retrieval Tree Pruning) 和树融合 (Tree Fusion) 三个主要步骤实现。检索过程:利用检索方法(如PLD或REST)根据当前上下文s'作为查询,从数据存储D中识别延续候选S。PLD通过后缀匹配从输入中检索,REST则从预定义上下文数据库中检索相关token。检索树剪枝:将检索到的候选序列构建成检索树,并根据草稿模型的输出分布(置信度分数)对其进行剪枝,以选择高质量的检索结果。树融合:将草稿模型生成的树与检索树进行融合。通过最长前缀匹配算法合并共享相同前缀的分支,创建一个统一的“检索增强草稿token树”,融合了语言模型和知识库的信息。草稿树验证:目标模型使用树注意力 (tree attention) 在一次前向传递中验证融合后的草稿token树,从而实现加速。RASD可以增强任何使用树注意力的推测解码方法(如EAGLE2)。 主要区别总结:关注点:REFRAG关注的是RAG上下文的表示和处理方式,通过压缩上下文信息来减少计算量和内存占用,特别优化TTFT。RASD关注的是推测解码中的草稿token生成质量和效率,通过引入外部检索来辅助生成更准确的草稿序列,减少目标模型的验证步骤。上下文处理方式:REFRAG将整个RAG上下文分块并压缩成嵌入,并通过RL策略动态决定哪些块需要“解压缩”以保留完整信息。RASD通过检索获取上下文延续的候选序列,这些序列被组织成树形结构,并与草稿模型的生成结果融合,用于推测解码的验证。核心技术:REFRAG通过改变上下文的输入表示(从token到块嵌入) 来达到效率提升,并利用强化学习进行智能压缩。RASD通过增强推测解码的草稿生成阶段来实现加速,它依赖于检索算法、树结构操作(剪枝、融合)和树注意力验证。应用场景侧重:REFRAG在多种长上下文任务中表现出色,包括RAG、多轮对话和长文档摘要,特别是在相同延迟预算下可以处理更多信息。RASD在文档问答 (DocQA)、摘要 (Summary)、代码生成 (Code) 和域内问答 (In-Domain QA) 等任务中加速推理,并且在知识密集型或草稿模型在域外场景表现不佳时特别有效。简而言之,REFRAG通过优化RAG上下文的**“输入形式”** 来提高效率,而RASD通过优化推测解码中**“草稿token的生成和验证”** 来加速推理。 Papers: REFRAG: Rethinking RAG based Decoding RASD: Retrieval-Augmented Speculative Decoding

    39 分钟
  3. 2025/08/31

    美团入局大模型:LongCat-Flash如何高效驱动智能体?深度解析MoE架构、零计算专家与数据飞轮

    LongCat-Flash-Chat LongCat-Flash 模型在架构设计、训练策略和推理部署方面引入了多项创新技术,使其在计算效率和智能体能力方面均表现出色。 模型架构创新和技术要点LongCat-Flash 采用了一种新颖的 Mixture-of-Experts (MoE) 架构,其核心创新包括: 零计算专家 (Zero-computation Experts):LongCat-Flash 引入了零计算专家机制,能够根据上下文需求动态分配计算预算。这意味着模型可以为重要的 token 激活更多参数,而对不重要的 token 减少计算,从而优化资源利用。在总共 5600 亿参数中,模型每个 token 平均激活约 270 亿参数,范围在 186 亿至 313 亿之间。通过由 PID 控制器调整的专家偏差来保持平均激活参数的一致性,确保专家间的负载平衡,并在相同的计算预算下实现优于传统 MoE 模型的性能。零计算专家本身不产生额外的计算成本,仅仅返回输入作为输出。 快捷连接 MoE (Shortcut-connected MoE, ScMoE):ScMoE 架构通过引入跨层快捷连接,显著扩大了计算与通信的重叠窗口。这一设计允许前一个模块的密集前馈网络 (FFN) 计算与当前 MoE 层的分派/合并通信并行执行。ScMoE 在训练和推理过程中都带来了显著的效率提升和高吞吐量。例如,在推理时,它实现了单批次重叠 (Single Batch Overlap, SBO) 流水线,理论上可将每输出 token 时间 (TPOT) 减少近 50%。实验证明,ScMoE 优化对模型质量没有负面影响,训练损失曲线与基线模型几乎相同,且其优势与模型规模和注意力机制的选择无关。 可扩展性方差对齐设计 (Variance Alignment Design for Scalability):MLA 的尺度校正 (Scale-Correction for MLA):LongCat-Flash 改进了多头潜在注意力 (MLA) 机制,引入了尺度校正因子 (αq 和 αkv) 以解决非对称低秩分解中固有的方差不平衡问题,从而在模型扩展时提高收敛性和稳定性。专家初始化方差补偿 (Variance Compensation for Experts Initialization):针对细粒度专家策略中因专家分割导致的初始化方差降低,提出了方差补偿机制,通过缩放因子 γ 补偿门控稀释和维度降低效应,以保持 MoE 层的输出方差。 模型配置 (Model Configurations):LongCat-Flash 包含 28 层(不包括 MTP 层),隐藏状态维度为 6144。每个 MLA 块使用 64 个注意力头,每个头维度为 128。每个层包含 512 个 FFN 专家和 256 个零计算专家,每个 token 激活 12 个专家。 分词器 (Tokenizer):采用字节对编码 (BPE),对中文 (CJK) 字符分词进行了增强,并独立处理数字以提升数学能力。词汇量大小优化为 131,072 个 token。 多 token 预测 (Multi-Token Prediction, MTP):作为辅助训练目标以提高推理效率,采用单层密集 MTP 头,在预训练后期实现了约 90% 的接受率。训练策略与基础设施LongCat-Flash 的训练采用了先进的策略和基础设施,以确保模型的可扩展性、稳定性和智能体能力。 综合性扩展框架 (Comprehensive Scaling Framework):结合超参数迁移、模型增长初始化、多管齐下的稳定性套件和确定性计算,实现了稳定且可复现的训练。 多阶段训练管线 (Multi-Stage Training Pipeline):通过精心设计的分阶段流程,培养了模型的智能体行为。初期阶段构建适合智能体后训练的基础模型,处理推理密集型领域数据。中期训练增强推理和编码能力,并将上下文长度扩展至 128k。在此基础上进行多阶段后训练,解决高质量、高难度智能体任务训练数据稀缺的问题。 推理和部署优化:采用了模型-系统协同设计,显著提高了吞吐量和降低了延迟。在 H800 GPU 上实现每秒超过 100 个 token (TPS) 的推理速度,每百万输出 token 的成本仅为 0.70 美元。利用 SBO 调度策略、推测解码(通过 MTP 作为草稿模型)和 KV 缓存优化等技术提高推理效率。系统级技术包括多步重叠调度器以最小化调度开销、定制化内核优化 MoE GEMM 的 SwapAB 技术、高效的通信内核以及细粒度块级量化策略。智能体能力培养LongCat-Flash 通过独特的多智能体数据合成框架和长上下文扩展,显著增强了其智能体能力。 多智能体数据合成框架 (Multi-Agent Data Synthesis Framework):通过定义信息处理复杂性、工具集复杂性和用户交互复杂性三个维度来生成需要迭代推理和环境交互的复杂任务。包含 UserProfileAgent, ToolSetAgent, InstructionAgent, EnvironmentAgent, RubricAgent, ValidatorAgent, DeduplicatorAgent 等专用智能体,确保数据的多样性、概念复杂性、领域覆盖率和问题质量。 长上下文扩展 (Long Context Extension):采用两阶段策略将上下文窗口扩展到 128k tokens,并使用高质量长文本数据和结构化的代码仓库数据进行训练。在扩展过程中,通过数据混合策略确保模型通用能力保持稳定。 推理和编码增强 (Reasoning and Coding Enhancement):通过检索预训练数据和数据合成相结合,优化数据质量和多样性,包括知识图谱遍历、多阶段迭代细化、双模态生成与验证等,以提升模型的数学和编码能力。 指令遵循和安全 (Instruction Following and Safety):策划单轮和多轮指令遵循数据集,并构建批判数据集以增强模型的批判性思维。根据内部内容指南开发了全面的内容安全策略,对查询进行分类并生成符合安全标准的响应。这些关键技术和架构创新共同赋予了 LongCat-Flash 在高效计算和复杂智能体任务处理方面的卓越能力和竞争优势。

    22 分钟
  4. 2025/08/24

    深度解析Intern-S1如何颠覆科研AI

    本期论文:INTERN-S1: A SCIENTIFIC MULTIMODAL FOUNDATION MODEL Intern-S1 在多个方面展现了显著的创新,这些创新主要体现在其模型架构、数据策略以及训练系统和算法优化上,旨在弥合开放源代码与闭源模型在科学理解和推理能力上的差距,并向通用人工智能(AGI)迈进。 以下是 Intern-S1 的主要创新点: 专业通用型多模态基础模型定位:Intern-S1 被设计为一个能够分析多种科学模态数据(如分子结构、时间序列信号等)的专业通用型模型。它旨在成为加速科学发现的多模态大型推理模型。 创新的模型架构设计:多专家混合(Mixture-of-Experts, MoE)架构:Intern-S1 采用 Qwen3-235B MoE 模型作为基础 LLM,总参数达 2410 亿,激活参数 280 亿,提升了处理复杂任务的能力。多模态编码器:根据科学模态的不同表示形式,Intern-S1 采用不同的策略将其投射到 LLM 的表示空间。InternViT 视觉编码器:使用 InternViT 系列(Intern-S1 采用 InternViT-6B,Intern-S1-mini 采用 InternViT-300M),提供强大的高分辨率、细粒度视觉表示,并支持动态分辨率,通过 MLP 投影仪与语言模型对齐。动态分词器(Dynamic Tokenizer):这是针对分子结构(如 SMILES 格式)、蛋白质序列等可线性化的离散科学表示设计的。它解决了传统静态分词器在科学领域压缩率低和不同模态相同 token 嵌入偏差的问题。该分词器通过规则或特殊标签检测模态,对不同部分应用不同分词策略,并使它们的嵌入空间相互正交。实验证明,其在科学数据(如 SMILES 格式)上的压缩率比其他模型提高了 70% 以上,显著节省了计算开销。时间序列编码器(Time Series Encoder):用于处理地震波、引力波、EEG 记录等连续数值序列数据。它能捕捉时间依赖性,将长、连续、缺乏显式语义结构的数据压缩成适合 LLM 理解和推理的表示,并包含专门的自适应下采样模块和基于 Transformer 的块。 大规模高质量科学数据策展:高纯度科学数据管道:通过 agent 工作流从网络数据中挖掘预训练数据,将目标领域的数据纯度从约 2% 提高到 50% 以上。页面级 PDF 文档解析:采用混合 OCR 和 VLM 管道,结合低成本解析器(如 MinerU)和高成本 VLM(如 InternVL、Qwen-VL)进行页面级解析,以平衡质量和成本,特别处理包含大量公式和符号标记的文档。以领域为中心的网络数据解析:对来自相同 URL 域的网页,通过 LLM-based agent 应用定制化策略,解决通用解析器难以处理的结构性问题。多模态科学数据管道:构建了多模态科学数据,以保留细粒度的科学结构(如图表、公式、符号、表格),并对齐视觉资产与上下文,生成适用于科学推理的指令式和考试式监督数据。 先进的训练系统与算法优化:InternBootCamp 大型交互式环境:一个包含 1000 多种任务的平台,用于模型专业技能学习,提供可验证的奖励信号。Mixture-of-Rewards (MoR) 框架:这是一个创新的算法框架,能够统一协调来自不同任务和反馈形式的奖励信号,实现千级任务的协同学习。对于难以验证的任务(如创意写作、聊天),采用 POLAR 提供统一奖励;对于易于验证的任务,结合验证模型、规则和环境反馈生成精确的奖励标量。该框架使 RL 训练过程的成本比现有基线降低了 10 倍,高样本效率对于教授模型科学领域的专业技能至关重要。可变长度均衡策略(Variable-Length Balanced Strategy, VLBS):解决了 FSDP 在可变长度训练中的工作负载不平衡问题,平均加速了 2 倍。RL 算法优化:采用 OREAL 算法,通过行为克隆和策略梯度,避免了 MoE 模型训练中因 token 级别裁剪而导致的崩溃问题。引入 KL-Cov 策略进行熵控制,以防止熵快速降低导致探索能力丧失,这对于 Intern-S1 MoE 模型在冷启动后初始熵较低的情况尤为关键。结合了混合离线-在线数据过滤策略,筛选高质量的训练数据,加速模型在数学推理等任务上的改进。训练效率提升:包括 FP8 精度训练、优化的内核(如 Grouped GEMM、Liger-kernel、Flash Attention-3) 以及训练和推理引擎的同地设计。训练策略:采用批大小热身(Batch Size Warmup)策略以平衡性能和训练效率,并基于 Scaling Laws 精确调整学习率和批大小切换点。这些集成创新共同使 Intern-S1 在通用推理任务上显著缩小了与闭源大型模型的差距,并在分子合成规划、反应条件预测、晶体热力学稳定性预测等专业科学任务中,表现甚至超越了闭源最先进模型,为开放源代码多模态科学推理设定了新的标杆。

    25 分钟

关于

让AI来聊一聊最新的大模型领域论文/报告。