海外独角兽

海外独角兽

全球投资平台拾象科技和开源研究平台「海外独角兽」出品的声音栏目。作为一个开源研究平台,「海外独角兽」在过去 3 年时间中研究并开源发布了近 200 篇深度研究,既有对 150+ 全球头部独角兽公司的深度分析,也有 Top-Down 对行业趋势的宏观研判,还包括我们走访硅谷、和全球头部科技公司从业者、投资人交流后的一线体感。 在这档全新的播客节目中,我们将延续海外独角兽开源精神,用声音传递最先锋的科技观察、链接全球优秀的大脑,抹平信息鸿沟。 欢迎订阅收听。 如果您想对我们有更多了解,可以微信搜索「海外独角兽」(id:unicornobserver)关注我们的公众号,获取更多深度研究、一线观察。

  1. 1 天前

    E13 和 Macaron 创始人陈锴杰聊:RL + Memory 让 Agent 成为用户专属的“哆啦 A 梦”

    最近,我们观察到 AI 市场开始出现了一些新变化:随着 ChatGPT 加入记忆功能,AI 的角色正发生有趣的转变——它不仅是帮你写代码、做 PPT 的小工具,还有潜力成为一个真正懂你的生活伙伴。同时,Agent 开发进入了更成熟的阶段。过去大家主要依赖 prompt 技巧,如今通过强化学习和记忆系统,开发者可以训练出既有情商、又能生成小工具的智能体。 这两个趋势的叠加,推动 AI Agent 可以更加个性化、专业化地完成用户任务。 本期节目,我们邀请了 Macaron 创始人陈锴杰。他是 95 后连续创业者,曾打造 300 万用户的互动故事平台 MidReal。他将和我们聊聊如何把 Memory 当作一种智能能力进行训练,并分享强化学习在 Agent 开发中的重要性。锴杰坦言,Macaron 还有巨大的优化空间,100 分里只会给 7-8 分。但他相信,Personal Agent 将成为像社交软件一样的超级赛道。 如果你对 AI Agent 如何与我们的生活交互感兴趣,请千万不要错过这期内容! 00:05:24 把 Memory 当成智能能力训练:Memory 不是目的,而是方法 00:11:01 如何进行冷启动——让用户第一天就感到“被理解”? 00:15:51 如何用 Multi-Agent 技术平衡“高情商的朋友”和“高智商的助理” 00:18:59 Macaron 的愿景是做一个生活方式的分享平台 00:22:36 AI Sub Agent 的“进化论”和记忆传递方式 00:35:55 为什么强化学习(RL)是 Agent 智能提升下半场的核心? 00:39:42 All-sync RL 技术:把 RL 训练速度从周压缩到天,实现产品快速迭代 00:43:15    RL infra 很难像云服务一样标准化 00:55:03 三个真实用例带来的 Aha Moments 00:58:36 社交软件领域给 AI Agent 开发带来的思考 01:06:21     如何思考 OpenAI 等巨头在个人 Agent 领域带来的竞争? Character.AI:个性化的 ChatGPT,AI 大模型时代的 UGC 平台 Agent 最全 Playbook:场景、记忆和交互创新 RL 是 LLM 的新范式 对 DeepSeek 和智能下半场的几条判断 Claude 4 核心成员:Agent RL,RLVR 新范式,Inference 算力瓶颈 CoT(Chain-of-Thought,思维链):指在训练大模型时,把推理过程逐步写出来,而不是只给最终答案。 RAG(Retrieval-Augmented Generation,检索增强生成):模型生成答案时,先从知识库/外部文档里检索相关内容,再用检索结果辅助生成。 Context Engineering(上下文工程/上下文设计):一种更系统的 prompt 设计方法,把相关的背景信息、任务指令、示例等整合到输入里。 Multi-Agent 架构(多智能体架构):指将不同功能的模型拆分为多个 Agent,每个 Agent 专注于某一类任务(如对话、代码生成),通过协作与协议完成整体目标。 Sub Agent(子代理 / 小工具):在 Personal Agent 中生成的专属小程序,用于解决具体生活或工作任务(如饮食规划、健身记录、日记管理)。它们由主 Agent 调用或生成。 Router(任务路由):在 Multi-Agent 系统中,负责把用户请求或上下文信息合理分配给不同的 Agent(如聊天 Agent、Coding Agent),确保任务由最合适的模块完成。 on-policy(同策略训练):强化学习中的一种训练方式,模型完全基于自己生成的数据来更新参数,而不是依赖外部静态数据集,能让训练目标更直接对齐实际环境。 online training(在线训练):指模型在上线运行过程中,根据用户实时反馈或交互数据不断更新和优化,相比批量离线训练更能快速适应用户需求。 all-think RL / all-sync RL(全同步强化学习):一种优化强化学习训练效率的方法。通过同时调度训练(trainer)和推理(inference),减少 GPU 资源空转,把训练时间从“按周”压缩到“按天”。 GPU bubble(GPU 气泡):在训练大模型时,由于训练和推理交替不均衡,导致 GPU 算力出现空闲、被浪费的现象。优化方法目标就是尽量“挤掉泡泡”。 expert parallelism(专家并行):大模型训练中的并行方式,把模型拆分为多个“专家模块”(Experts),不同 GPU 分别负责部分专家,提升效率。常见于 Mixture-of-Experts (MoE) 模型。 pipeline parallelism(管线并行):大模型训练中的并行方式,把神经网络的不同层分配到不同 GPU 上,像流水线一样依次传递数据,解决模型过大无法放入单卡的问题。

    1 小時 11 分鐘
  2. 8月13日

    E12 和 Memories.ai 创始人 Shawn 聊:如何给 AI 做一套“视觉海马体”?

    过去几年,AI 的巨大突破赋予了机器语言的力量,而下一个前沿在于赋予 AI 关于世界的记忆。当大模型只能分析短暂的视频内容时,一个根本性的鸿沟依然存在:虽然 AI 能够处理信息,但却无法真正地“记住” 信息。可如今 AI 的发展瓶颈已不再是“看见”,而是如何保留、索引并回忆来构成我们现实世界的视觉数据流。 我们认为,Memories.ai 正在构建一条不同的路径。这家公司成立于 2024 年,由前 Meta Reality Labs 的华人研究科学家沈俊潇(Shawn Shen)博士和周恩旻(Ben Zhou)联合创立,他们致力于打造一个基础性的视觉记忆层,目标是成为所有 AI 的“海马体” 。 上个月,Memories.ai 推出了大型视觉记忆模型 LVMM,这不是单一的端到端模型,而是仿照人脑、通过工程化实现的视频记忆系统,能压缩、索引、查询无限量视频数据,让 AI 不止能看,更能真正记住和回忆。 本期节目,我们邀请到了 Memories.ai  创始人 Shawn。在 Shawn 看来,真正类人的记忆本质上是视觉的,而非文本的。他将结合自己的创业思考,和我们分享 LVMM 的构建理念、技术挑战,以及对 memory 的未来想象。 02:07  视频生成与视频理解的差异,创业公司选择视频理解与记忆的原因 03:55  文本记忆与视觉记忆的本质区别,现有 AI 记忆多为“上下文工程” 05:05  人类长期记忆的类型及与 AI 记忆机制的对应关系 08:43  视频是原始数据(raw data),需通过抽象压缩实现理解与检索 10:02  多模态代理(multimodal agents)将成为未来趋势,multimodal prompting 的重要性 11:43  LVMM(大型视觉记忆模型)的设计理念及人类记忆机制的模拟 15:03  LVMM 的关键模块:压缩层、索引、聚合、数据库服务 17:39  与 RAG 的区别:VRM(视觉检索模型)路径 19:06  记忆与理解的关系,长期看理解力有助于记忆力 21:16  应用场景 1:安防领域的实时检测与商业价值 23:12  应用场景 2:媒体与短剧制作的全流程解决方案 23:46  应用场景 3:视频营销与创意引擎,索引 TikTok 热门视频 24:29  视频营销中的网红达人发现与内容创意支持 >> 对谈 Pokee CEO 朱哲清:RL-native 的 Agent 系统应该长什么样?|Best Minds >> 专访 Luma AI 首席科学家:我们更相信多模态的 Scaling Law >> 专访月之暗面杨植麟:lossless long context is everything >> 专访 VideoPoet 作者:LLM 能带来真正的视觉智能 >> 专访 Pika Labs 创始人:探索视频生成的 GPT 时刻 Memories.ai: 是一家专注于长期视频语境理解和视觉记忆建模的 AI 初创公司,公司核心技术 Large Visual Memory Model 为 AI 构建类似人类的“视觉记忆层”,让 AI 能在海量视频数据中持续存储、理解、检索并建立关联记忆。与传统仅能处理短视频的系统不同,Memories.ai 的平台可分析高达 1000 万小时的视频内容,实现噪声压缩、索引、自然语言搜索、标签化和内容聚合等功能。 上下文腐败(context corruption):在大模型领域尤其是注意力机制(attention mechanism)下,指的是当模型处理超长上下文时,原本在上下文中已有的关键信息被逐渐稀释、扭曲或遗忘,导致模型在后续生成中对早期信息的引用不准确甚至错误。 LVMM( Large Visual Memory Model):是 Memories.ai 推出的核心技术系统,目的是为 AI 打造类人的视觉记忆能力,被称为所有 AI 的 “海马体”。但这个模型并非单一的端到端模型,而是一个受人脑记忆系统启发的复杂系统,主要功能是通过工程化方式实现对无限量视频数据的压缩、索引、查询和记忆。 VRM(Visual Retrieval Model):是 Memories.ai 处理视觉记忆的关键模型,用于直接处理视频数据,包含视觉编码过程,需决定如何 “灌入” 数据。它与 RAG 工作路径不同,RAG 是重新组合上下文给大模型处理,而 VRM 对基础设施要求更高,在 LVMM 系统中通过对视频分词等处理,可以为后续聚合、检索等环节提供支持。

    36 分鐘
  3. 7月19日

    E11 和 Chai-2 核心科学家乔卓然聊「AI 抗体设计」:分子生成平台是药物研发的 GPU

    AlphaFold 3 获得诺贝尔奖是 AI 在生物领域的重要里程碑,是生命科学领域中“foundation model 时刻”的典型代表,但蛋白质结构预测只是科研闭环的起点,只有当模型的能力从“预测结构”迈向“直接生成分子”,新药开发效率才能实现真正的指数级提升。 Chai Discovery 这家公司正是在 AlphaFold 方向上复现开源最快的公司。去年 9 月获得了 Thrive 和 OpenAI 3000 万美金的种子轮投资,估值达到 1.5 亿美金。他们的模型 Chai-1 选择的技术路线是用 Diffusion 模型做结构预测,和 AlphaFold 路线接近。 今年 6 月 30 日,他们又发布了新模型 Chai-2,它在零样本的前提下能自动生成有效的抗体结构,命中率高达 16%,是传统噬菌体筛选技术命中率的百倍,还具备极强的可扩展性,也就说,可以在几个小时内,为任何一个靶点设计出可实验验证的候选分子。 可见 Chai 的目标并不是 AI 辅助制药,而是构建“AI-native 制药”平台,把科学问题转化成工程问题。 本期内容我们邀请到了 Chai Discovery 的创始科学家乔卓然,卓然曾在 Iambic Therapeutics 担任 Senior Research Scientist,2025 年起,他作为创始团队成员和 AI 科学家加入了 Chai Discovery,是 Chai-2 模型的核心贡献者。他将结合自己科研经历,和我们分享了 Chai-2 的模型架构、实验成果,以及 AI 在药物发现领域真正的突破口。 One More Thing:本期文字稿可见 👉 对谈 Chai-2 核心科学家乔卓然:抗体生成成功率提升百倍,分子生成平台是药物研发的 GPU|Best Minds 00:06:00 Diffusion Model 带来了建模范式的根本改变 00:08:10 AlphaFold 2 给模型的架构扫平了很多障碍 00:16:28 Chai 团队的最大特点是具备第一性原理 00:18:00 Chai-2 和 AlphaFold 有什么不同? 00:21:42 蛋白质结构设计是结构预测的逆问题 00:29:56 Chai-2 相较于 Chai-1 最大的进步是从预测过渡到了生成 00:34:21 Chai-2 将药物开发周期从数月缩短到两周 00:37:56 在零样本前提下,Chai-2 能设计出具备 binding 活性的抗体,成功率高达 16% 00:45:37 模型的结构预测能力决定了模型上限 00:51:59 在所有 de novo 抗体设计或 binder 设计中,模型早已超越了人类的能力 01:00:04 分子生成平台对药物研发的作用将像 GPU 对 AI 的作用一样 01:04:15 Zero-shot 更接近药物设计的本质 01:05:14 合成数据是连接实验数据和生物学理论的“第三模态” 01:12:43 未来 AI for Science 公司的商业模式是“平台即 IP” >> 对谈 Chai-2 核心科学家乔卓然:抗体生成成功率提升百倍,分子生成平台是药物研发的 GPU|Best Minds >> 对谈斯坦福 Biomni 作者黄柯鑫:AI Scientist 领域将出现 Cursor 级别的机会|Best Minds >> Chai Discovery:OpenAI 投资的 AI4Sci 公司,AlphaFold 最快追赶者 >> Isomorphic Labs:DeepMind 创始人再创业,打造制药界的 TSMC >> FutureHouse 联合创始人:AI Scientist 不是“全自动化科研” >> AI4Science 图谱,如何颠覆 10 年 x 20 亿美金成本的药物研发模式 >> OpenEvidence,医疗领域诞生了第一个广告模式 Chatbot >> Flagship 创始人:AI for Science 的下一步是 Multi-agent >> Anthropic 创始人最看好的领域,AI for Science 深度解读 Chai Discovery:这是一家成立于 2024 年的 AI 初创公司,专注于通过 AI 预测和再编程生化分子结构,加速新药研发进程。去年 9 月获得了 Thrive 和 OpenAI 3000 万美金的种子轮投资,估值达到 1.5 亿美金。他们的模型 Chai-1 选择的技术路线是用 Diffusion 模型做结构预测,和 AlphaFold 路线接近,今年 6 月又发布了最新模型 Chai-2。 Score-based generative modeling:这是一种生成模型方法,核心思想是学习数据分布的“score function”,即对数密度函数的梯度。与传统的生成对抗网络或变分自编码器不同,这种方法不直接生成样本,而是通过一个随机微分方程从噪声出发,逐步将样本转化为数据分布中的真实样本。 Entos AI(现称 Iambic Therapeutics):是一家 AI 驱动小分子药物发现初创公司,依托自身专有的 OrbNet 平台,将量子力学融入机器学习,加速预筛选化合物、提高准确性。卓然的 PhD 导师 Tom Miller 是创始人兼 CEO。 NeuralPLexer2 和 NeuralPLexer3:这是由 Caltech 的 Thomas F. Miller III 等人在内的研究团队开发的一系列用于大规模分子结构预测和生成的深度学习模型,主要面向量子化学和计算分子科学等领域。这些模型在保留物理精度的同时,大幅提升了计算效率。 酵母展示和噬菌体展示:这是两种常见的体外蛋白筛选技术,用于发现与特定靶标具有高亲和力的抗体或蛋白分子。它们通过将蛋白质或抗体片段表达在微生物(如酵母或噬菌体病毒)表面,然后利用筛选和富集过程找到目标结合物。 Lab-in-the-loop optimization:是一种将实验反馈与机器学习模型相结合的优化方法,常用于蛋白质或药物分子设计流程中。该方法通过迭代过程进行优化,模型首先生成候选序列,随后通过实验验证性能,再将实验数据反馈给模型,来指导下一轮设计。通过这种方式,能够持续提升设计的效率和准确性。这种方法代表了一种“模型+实验”协同进化的设计理念,与完全依赖模型的“零样本生成”策略不同。 DockQ:用于评估蛋白质复合物对接质量的综合评分指标,介于 0 和 1 之间,数值越高表示预测结构越接近真实结构。通常,DockQ > 0.23 被视为是正确对接的阈值,用以判定一个复合结构是否可信。 Humira:这是全球首个由噬菌体展示技术筛选获得并成功商业化的全人源单克隆抗体药物,最初由 Cambridge Antibody Technology(后并入阿斯利康)开发,并由 Abbott(现为 AbbVie)推广上市。

    1 小時 20 分鐘
  4. 6月20日

    E10 和斯坦福Biomni作者黄柯鑫聊AI Scientist:我想用AI Agent找到下一个10亿美元分子

    随着 multi-agent 技术的发展,AI 可能不再只是“工具箱”,而是能自主完成跨学科复杂研究,从而推动科学发现走向全新模式。AI 实现科学和科研发现正在走进现实,AI scientist 已经在改写科研和药物开发范式: 今年 5 月,前谷歌 CEO Eric Schmidt 投资的 AI lab FutureHouse 推出了四个 AI scientist agent,一个月后,他们又宣布自己的 AI 系统 Robin 成功开发出了新的 dAMD 药物。就在两天前,OpenAI 也专门发布博客强调 AI 在生物学领域的能力正在不断增强。 本期内容我们邀请到了斯坦福大学 CS 博士生、AI scientist Biomni 核心贡献者黄柯鑫 一起聊 AI Scientist。柯鑫的学术背景兼顾了生物和计算机研究,有多篇论文发表在 Nature 系列期刊及 ML 顶会上。 Biomni 是斯坦福研究团队最近发布上线的一个生物医学通用 agent,它整合了 150 种专业工具、59 个数据库和 105 种软件,可以执行生物医学子领域的各种研究任务,打破了传统科研流程中碎片化、低效的壁垒,显著提高了科研效率。感兴趣的朋友可以在 biomni.stanford.edu 免费注册和使用。 在本期节目中,柯鑫结合自己的科研经历,分享了 AI scientist 的理念,为什么普通 agent 无法胜任科研任务,以及 AI for Science 领域正在发生的重要趋势等话题。 和 AlphaFlod 等生物医学领域的大模型不同,AI Scientist 通常指利用 AI 技术辅助或自动化科学研究过程的系统(或工具),能在数据分析、假设生成、实验设计等方面加速科学发现,这个概念既可以指 AI 作为辅助者,帮助科学家做研究,也可以指 AI 主动、独立承担科研任务。 AI Scientist 一直是头部 AI labs 的重要研究课题: 去年末,Transformer 作者 Llion Jones 参与创立的 Sakana AI 推出首个全自动 AI 科研系统,这个系统能够独立完成从创意生成、编码、实验执行到撰写科学论文的整个研究流程; 今年 2 月,Google 推出了基于 Gemini 2.0 构建的 multi-agent 系统 AI co-scientist,可以协助科研人员做各种繁琐的科研任务,包括科研选题、文献检索和实验设计。 今年 5 月,前 Google CEO Eric Schmidt 投资的 AI lab FutureHouse 推出了四款 AI scientist agent,一个月后,他们又宣布自己的 AI 系统 Robin 在 2.5 个月时间内发现了一种治疗干性年龄相关性黄斑变性(dAMD)的新候选药物。 02:08 AI+生物领域在发生什么? 09:07 AI scientist 和一般的 agent、AlphaFold 等底层模型有什么不同? 11:40 FutureHouse 声称用 agent 能开发了出新的 dAMD 药物 15:04 通用 agent 做不好 AI scientist 是因为缺少合适环境和专家 know-how 20:07 Biomni 的核心是打造了一个 agent 能够执行大量研究任务的环境 26:34 Biomni 是完全依赖 LLM 的能力来使用工具、软件和数据库的 31:55 AI Scientist  是使用 AlphaFold 的 Agent 系统 33:50 AI scientist agent 未来进步的方向是环境和应用落地 37:21 数据是生物领域最大的瓶颈 40:23 Biomni 的使用场景和目标用户有哪些? 43:05 AI Biology 的 benchmark 有很多探索方向 48:37 AI for Science 也会出现自己的 Cursor、 Devin 49:59 到 2050 年,一个 agent 可能就能创造价值十亿美元 Biotech 公司 53:16 Big Pharma 们的 AI 实践:左手 AlphaFold,右手 ChatGPT 57:12 AI scientist 的进展与 AlphaFold 这样的科技突破同样令人兴奋 >> AI4Science 图谱,如何颠覆 10 年 x 20 亿美金成本的药物研发模式 >> 巨头博弈下,agent 的机会和价值究竟在哪里? >> OpenEvidence,医疗领域诞生了第一个广告模式 Chatbot >> Flagship 创始人:AI for Science 的下一步是 Multi-agent >> Chai Discovery:OpenAI 投资的 AI4Sci 公司,AlphaFold 最快追赶者 >> Anthropic 创始人最看好的领域,AI for Science 深度解读 AlphaFold:Google DeepMind 开发的AI 模型,主要用于蛋白质结构预测,最早在2018年推出,2024年5月发布了 AlphaFold3,将技术扩展到蛋白质折叠之外,能以前所未有的精度准确预测蛋白质、DNA、RNA、配体等生命分子的结构及相互作用。它直接改变了上一代版本的核心架构,用“扩散模块”取代了上一代中非常重要的“结构模块”,标志着AlphaFold在技术上的又一次飞跃。 Biomni:斯坦福大学最近发布的一个生物医学领域的通用 AI agent,整合了 150 种专业工具、59 个数据库和 105 种软件,可以执行生物医学子领域的各种研究任务,打破了传统科研流程中碎片化、低效的壁垒,显著提高了科研效率; 干实验和湿实验:干实验通常指不直接操作生物材料的计算或理论工作,比如用计算机进行基因序列分析、建模模拟等;湿实验是指在实验室中直接操作生物样品(如细胞、蛋白质、DNA)进行的实验,如 PCR、培养、染色等。 CRISPR 技术:一种基因编辑工具,能在特定 DNA 序列上进行高效、精准的剪切和修改,广泛用于基因功能研究和疾病治疗开发。 Virtual cell:是使用多模态、生物与分子数据训练的神经网络模型,目的是在计算机环境中模拟细胞在不同状态下的行为与功能,为预测细胞动态和治疗响应提供虚拟实验平台。 FutureHouse:由前谷歌 CEO 埃里克·施密特支持的非营利组织,成立于 2023 年,目前已推出了一系列专门用于科学研究的 AI agent GWAS:Genome-Wide Association Study,即全基因组关联研究,这是一种通过比较大量个体的基因组变异与表型差异,寻找与疾病或性状相关的遗传位点的方法 CRISPR 实验:指应用 CRISPR-Cas 系统对特定 DNA 进行剪切、修饰或调控的实验,常用于基因敲除、基因敲入或基因表达调控,广泛应用于基础研究、疾病模型构建及潜在治疗开发 Michael Snyder Lab:斯坦福大学 Michael Snyder 教授领导的研究实验室,该实验室在个人化医疗、基因组学以及利用可穿戴设备进行大规模健康数据监测等前沿领域的研究中处于世界领先地位。 Scanpy:一个基于 Python 的开源分析工具包,专门用于处理和分析单细胞 RNA 测序(scRNA-seq)数据。它是生物信息学领域进行单细胞分析的主流软件之一,能够帮助研究人员对细胞进行聚类、识别细胞类型、发现新的生物学标记等。 Oracle:指理想化的、能为某个特定问题提供绝对正确或黄金标准的模型或系统。 pLDDT Score:这是 AlphaFold 2 输出的一个关键指标,表示模型对所预测的蛋白质结构中每个氨基酸残基位置的置信度,分数越高,代表模型对该局部区域的结构预测越有信心,结构也更可能可靠。 AlphaEvolve:这是 DeepMind 2025 年推出的进化式 coding agent,通过不断生成、评估和优化代码,能够自主改进算法并发现新方案,目前已在矩阵乘法、数据中心调度和芯片设计等领域实现突破。 Popper:这是柯鑫作为核心作者开发的一个 multi-agent 系统,设计灵感源于科学家 Karl Popper 的可证伪性原则,目的是自动化“假设生成-实验验证”的科学发现循环:由一个 agent 负责从海量数据中提出科学假设,另一个 agent 则负责设计实验来验证或证伪这些假设,从而大规模地挖掘潜在的科学洞见。

    59 分鐘
  5. 6月12日

    E9 和DeepSeek-Prover作者辛华剑聊「形式化数学」:数学的工业化,Agentic AI,Benchmark

    Era of Experience 这篇在 AI 社区讨论度很高的文章中提出:如果想实现 AGI,构建通用 Agent,就必须依靠“经验”,也就是模型和 Agent 在强化学习过程中自主积累的、人类数据集中没有的高质量数据。 DeepMind 的 AlphaProof 就被认为是这样一个典型案例,它靠 RL 算法自行“做题练习”,最终在数学领域,达到了超越人类的水平。以 AlphaProof 为开端,OpenAI 的 o1、DeepSeek 的 Prover-V2 等模型不断推动数学领域的进展,让数学证明成为了 AI 突破的新高地。 为什么 AI 研究中要特别关注数学证明能力?一方面数学领域的突破是模型能力提升的直接表现;另一方面,数学和代码类任务一样,不仅有严格的规则和格式,明确的推理路径,还有着对逻辑性、可验证性的高要求,这让数学类任务成为 RL 理想的训练环境。 这期内容我们请到了 DeepSeek-Prover 系列核心作者辛华剑,邀请华剑来和我们讲解数学和 AGI 之间的关系。华剑本科毕业于中山大学逻辑学,现在是爱丁堡大学人工智能方向的博士生,他目前专注于大模型在数学定理证明中的创新应用。 友情提示:这期内容同时涉及 AI 和数学领域的硬核干货,点击查看对谈全文文字内容 本期拓展阅读 86 条 DeepSeek 的关键思考 |Best Ideas 开源 对 DeepSeek 和智能下半场的几条判断 The Second Half:一位 OpenAI 科学家的 AI 下半场启示录 o3 深度解读:OpenAI 终于发力 tool use,agent 产品危险了吗? Claude 4 核心成员:Agent RL,RLVR 新范式,Inference 算力瓶颈讨论中被提及的相关名词: DeepSeek Prover:DeepSeek Prover 是 DeepSeek 开发一系列开源数学推理大模型,专注于形式化定理证明,支持将自然语言问题转化为 Lean 4,并通过逻辑严谨的定理验证来解决数学问题。 Ilya sutskever:是 OpenAI 联合创始人和前首席科学家,在 GPT 系列模型的开发中扮演了关键角色,Ilya 在 AI 研究领域有很强的影响力,业界认为他的技术品味很好,在技术方向的选择上具有很强的预判性。 形式化数学:形式化数学是指利用精确的符号语言来表达数学概念、定理及其证明,以消除传统数学推理中的模糊性,建立严谨且透明的框架。 人月神话:“人月神话”最初来源于软件工程领域,指的是一种普遍的误区,即错误地认为增加人手可以线性地提升项目进度。 MATH 数据集:这是一个数学推理数据集,包含约 12500 道数学竞赛的题目,涵盖代数、几何、组合、数论等领域。它专为评估和提升 LLM 在逐步数学推理任务中的能力而设计。 Autoformalization:自动形式化,指将用自然语言表达的数学内容(如定义、定理和证明)自动转换为可被计算机验证的形式化语言的过程。 AlphaProof:AlphaProof 是由 Google DeepMind 开发的模型,以 Lean 语言自动生成数学定理的形式化证明,是第一个在 IMO 获奖的 AI 模型。 Mathlib 数据库:这是基于 Lean 形式化证明系统构建的一个大型数学库,包含丰富的定义、定理和证明,用于支持数学知识的形式化与自动验证。 从“HumanEval” 向 “SWE-bench”跨越:HumanEval 测试模型写单个函数的能力,侧重小规模代码生成;SWE-bench 要求模型在完整代码库中修复 bug,考察跨文件和系统级改动能力。两者区别在于前者侧重原子级能力,后者重视工程级能力。 DeepSeek Generative Reward Model:这是 DeepSeek 与清华大学提出的奖励建模方法,通过生成结构化文本反馈(如评价原则与点评)来替代传统数值评分,提升大 LLM 的推理与 RL 效果,同时支持推理时的灵活扩展与优化。

    1 小時 41 分鐘
  6. 6月12日

    E7 大模型非共识下,什么是 AGI 的主线与主峰?

    本节目是全球投资平台拾象科技和开源研究平台「海外独角兽」共同出品的声音栏目。「全球大模型季报」是「海外独角兽」和「张小珺商业访谈录」的共同制作的 AI 领域观察栏目,以季度为单位,梳理行业 LLM 领域的重要信号,预测未来。2025 Q1 中美 AI 领域都相当火热:DeepSeek R1 催化了 RL model 的热潮,头部模型厂商连续发布 SOTA reasoning models,推出 deep research;Manus 的火爆又把 Agentic AI 的讨论带到 AI 社区中心。本期内容是我们对 2025 年第一季度的回顾以及对 AGI 竞争格局、roadmap 的再思考: 虽然过去 2 年模型格局、技术关键词不断变化,但 AGI 路线图上只有智能提升是唯一主线,智能本身就是最大应用,要围绕智能本身去投资和思考。模型公司形成壁垒的关键在于成为 Cloud 或 OS,未来模型和产品边界会逐渐模糊; 今天最大非共识是 pre-training 空间还非常大,只有 pre-training 才能涌现出新能力,决定模型内在上限; Coding 的意义不仅仅在于编程,而是实现 AGI 的最好环境,是模型的一只手,现实世界多数任务可用 Coding 表达,模型通过生成并执行代码来实现对外部信息的采集、处理和反馈; ChatGPT 只是 AGI 的“前菜”,是 AGI 攀登的第一站,Agentic AI 才是更加关键的未来; Agent 落地最关键的三个能力是 long context reasoning、Tool-use、Instruction following;…… 本期内容文字链接

    1 小時 58 分鐘
  7. 6月12日

    E8 专访张祥雨:多模态推理和自主学习是未来的 2 个 「GPT-4」 时刻

    本期内容是拾象 CEO 李广密对大模型公司阶跃星辰首席科学家张祥雨的访谈,由「海外独角兽」和「张小珺商业访谈录」的共同制作,张祥雨专注于多模态领域,他提出了 DreamLLM 多模态大模型框架,这是业内最早的图文生成理解一体化的多模态大模型架构之一,基于这个框架,阶跃星辰发布了中国首个千亿参数原生多模态大模型 Step-1V。此外,他的学术影响力相当突出,论文总引用量已经超过了 37 万次。 一直以来,业界都相当期待一个理解、生成一体化的多模态,但直到今天这个模型还没出现,如何才能达到多模态领域的 GPT-4 时刻?这一期对谈中,祥雨结合自己在多模态领域的研究和实践历程,从纯粹的技术视角下分享了自己对多模态领域关键问题的全新思考,在他看来,虽然语言模型领域的进步极快,但多模态生成和理解的难度被低估了: 接下来 2-3 年,多模态领域会有两个 GPT-4 时刻:多模态推理和自主学习; 多模态生成理解一体化难以实现的原因在于,语言对视觉的控制能力弱,图文对齐不精确,数据质量有限,生成模块往往无法反向影响理解模块等; 模型 scale 到万亿参数后,在文本生成和知识问答能力增强的同时,推理能力,尤其是数学,却呈现出能力随规模增长反而下降的现象; 大模型出现推理能力下降的原因在于大模型在思考时,倾向跳步,next token prediction 框架天然更关注压缩率而非推理精度,这在任务目标与压缩率存在差异时会出问题; Rule-based RL 可通过直接优化任务目标,迫使模型选择可靠推理路径,在推理任务中抑制跳步、强化稳定的思维路径; o1 范式的技术本质在于激发出 Meta CoT 思维链:允许模型在关键节点反悔、重试、选择不同分支,使推理过程从单线变为图状结构。…… 访谈文字版全文链接。

    2 小時 26 分鐘
  8. 6月12日

    E6 LLM 竞赛 2025: 超越 Google 之路

    本期内容由「全球大模型季报」「海外独角兽」和「张小珺商业访谈录」的共同制作。我们以季度为单位,梳理行业 LLM 领域的重要信号,预测未来。2024 年的 LLM 竞赛是算力、模型和应用三条线并行。正如我们在 2024 年跨年对谈中所预测的,上半年,LLM 竞赛格局基本确定,到了下半年,随着 Sonnet 3.5  经验的 coding 能力、 o1 模型以及 RL 范式的接连出现,LLM 不再是单一的基建竞赛,LLM 的应用范围在扩大、对现有工作流改造的深度不断增强。 2025 年的核心主线一定是 coding 和 agent 。Andrej Karpathy 在 2017 年提出了 Software 2.0 的设想:1.0 时代的软件是把结构化、规则化的工作进行数字化封装,2.0 时代的软件则对 domain knowledge 和工作流进行封装重组,背后变化是如何更加动态地编排软件。这一预想一定会在 2025 年被落地,Agent、multi-agents 不仅会带来新的软件,也会对生产力任务进行重组。 互联网最本质的是对信息的重组,“Google” 是在“分发”这件事上最具代表性的符号,我们认为,今天 AI/LLM 的竞争同样也是一条超越 Google 之路:底层模型及其上层的超级应用是对 token 和智能的重新分发,以 ChatGPT、Perplexity 、Devin 为代表的应用最终将走向所有信息、内容甚至任务的 All-in-one 的分发容器。 点击查看文字版内容

    1 小時 30 分鐘

簡介

全球投资平台拾象科技和开源研究平台「海外独角兽」出品的声音栏目。作为一个开源研究平台,「海外独角兽」在过去 3 年时间中研究并开源发布了近 200 篇深度研究,既有对 150+ 全球头部独角兽公司的深度分析,也有 Top-Down 对行业趋势的宏观研判,还包括我们走访硅谷、和全球头部科技公司从业者、投资人交流后的一线体感。 在这档全新的播客节目中,我们将延续海外独角兽开源精神,用声音传递最先锋的科技观察、链接全球优秀的大脑,抹平信息鸿沟。 欢迎订阅收听。 如果您想对我们有更多了解,可以微信搜索「海外独角兽」(id:unicornobserver)关注我们的公众号,获取更多深度研究、一线观察。

你可能也會喜歡