晚点聊 LateTalk

晚点 LatePost

《晚点聊 LateTalk》由《晚点 LatePost》出品。 最一手的科技访谈,最真实的从业者思考。

  1. 3D AGO

    访谈 MuleRun 陈宇森:Claude Code 带来 Agent 创作新范式、未来的软件是日抛式的

    「软件应用也可以 “3D 打印” 了。」 当 Agent 构造变得越来越简单,会发生什么?Agent 交易平台 MuleRun 创始人陈宇森分享了他的观察和创业实践。 陈宇森是一名少年成名的连续创业者,22 岁从浙大毕业后创办网络安全公司长亭科技,5 年后卖给阿里云,现在他带着对 AI Agent 的理解重新出发。 MuleRun 基于这样一个核心假设,当 Vibe Coding 大幅降低了应用开发门槛,Claude Code 带来 Agent 创作新方法,大量非技术背景的人也能把自己的工作知识和流程封装成一个个勤恳的 AI 骡子,实现个人工作的自动化。 这期内容包含两次聊天,分别发生在 25 年 12 月和 26 年 1 月上旬,不到 1 个月里,随着 MuleRun AgentBuilder 开始内测,陈宇森和 MuleRun 的思路已发生了一些变化。 他认为,未来的 market place 不再会是过去我们熟悉的货架形态,而是在对话中触发交易。MuleRun 的调整本身,也是当前 AI 应用瞬息万变的一个缩影。 这期节目的后半段我们也聊了一个创业 10 年,成立过 4 家公司,经历过成败起伏的创业者,如何以「用心」避免陷入平庸和对抗自我怀疑。 本期嘉宾: 陈宇森,MuleRun 创始人 & CEO 本期主播: 程曼祺,晚点 LatePost 科技报道负责人 时间线跳转: -12 月底的访谈:寻找方向、Agent 交易平台的机会与难点 02:20 从 Vibe Coding 到 Agent 交易平台 09:20 Agent 的供给还不够丰富,但 Claude Code 带来拐点 16:41 MuleRun 做的两件事:好的 Runtime、清晰的 Skills、Prompt 的商业化 23:08 同样的技术变化,不同的做法:N8N、Dify、Coze、蚂蚁灵光、马卡龙、Youware 28:54 上线 3 个月:用户反馈、Agent 审核与上架、大量 SOP+少量大模型的开发方式 36:50 做好 Agent 的开发工具和交易平台的难点 40:29 如果 Agent 建造门槛大幅降低,通用 Agent 还存在吗? -1月中旬的访谈:Agent Builder 内测开启、交易平台不会再是货架式 42:21 再聊 Claude Code:Skills 详解,MuleRun 的 Skill 评价体系(Eval)和安全工作 47:32 “应用的 3D 打印机”,未来的软件是日抛式的,AI 是制造业 52:12 Agent Builder:从套壳模型→套壳“Claude Code” 01:01:22 Agent 构造变简单、数量变多:未来的 Market Place 不应该是货架式的 01:08:32 Agent Builder 的内测效果,Agent 开发工具和交易的界限? -12 月底的访谈:创立 4 家公司,成功退出过也低谷过,以「用心」对抗平庸 01:15:40 从长亭到同时创业做两家公司,一度觉得自己无所不能 01:25:24 走过下坡路,关过公司,痛苦带来的韧性 01:32:13 一定不要在选择题上出错,「用心」对抗平庸 01:40:16 26 AI 应用市场年会发生什么?跳出 Chatbot、跳过 1 亿甚至 10 亿美元 ARR 01:44:02 连点成线 往期相关节目: 106 期:与真格戴雨森长聊 Agent:各行业都会遭遇“李世石时刻”,Attention is not all you need|Agent#1 137 期:Agent 是机会,造 Agent 的工具也是|从OpenAI开发者日聊起|Agent#6 150 期:年末AI回顾:从模型到应用、从技术到商战,拽住洪流中的意义之线 小红书@曼祺_火柴Q即刻@曼祺_火柴Q ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:

    1h 47m
  2. 5D AGO

    年末AI回顾:从模型到应用、从技术到商战,拽住洪流中的意义之线

    这期是「晚点聊」的年终特别节目,在 AI 大事必定发生的春节之前,总结 2025 年和即将过去的蛇年,我们在 AI 领域的观察和见闻。 本期节目,我会以单口的形式来讲述,我将按几个大的主题来串起这一年在 AI 领域的观察,行业的一些大事件,以及「晚点聊」的相关节目,和整个《晚点 LatePost》对 AI 的更多报道。 你将你听到以下 7 个章节的内容:1.模型;2.应用;3.巨头的 AI 之战:字节、阿里、腾讯;4.创业公司们;5.具身智能;6.AI 硬件;7.AI 中的人。 在每个章节中,我会按照若干关键词来展开要点,并穿插指路《晚点聊》的相关往期节目或《晚点》的相关文章。我会把提到的文章,列在 shownotes 里。 历史正在加速发生,AI 洪流中,五色使人迷目。但人是意义的动物,我们总试图理解和抓住什么。 希望这期年底的大型“连点成线”,可以帮听友得到一份正在拓展中的 AI 地图。 时间线跳转: 1.模型 01:10 Agentic Model:R1 | Coding | 多模态 08:58 协同优化:Google | DeepSeek 开源周 | 注意力机制改进、芯片互联 15:22 下一个学习范式:从大脑获得灵感 2.应用 19:49 Agent:Coding 就是 General Agent | 垂类 Agent | Agent 工具链 32:02 Sora App:to C 的想象力 37:19 AI for Science:AI 科学家 3.巨头的 AI 之战 40:23 人才和组织之战 49:51 To C 应用大战 4.AI 创业公司们 01:01:28 大模型第一股 01:07:13 5000 万美元 ARR 01:11:36 全球化与中美之间 5.具身智能 01:14:29 投资和上市潮 01:22:09 数据、模型、本体的进展 01:28:05 5 个落地方向 6.AI 硬件 01:34:50 AI 眼镜能成为下一个入口吗? 01:44:30 深圳的公司们 7.AI 中的人 01:49:48 天价薪酬与失业 01:52:39 使用用 AI 的人 01:54:25 意义感:大模型无法替你活过 相关联链接: 《DeepSeek-V3/R1推理系统概览》 Top Lean AI-native Companies Leadboard:https://leanaileaderboard.com/ 本期中提及的《晚点聊》往期节目,可根据期数搜索;本期中提及的《晚点 LatePost》相关报道: 「应用」 《实测豆包手机助手:比价点外卖、自动回微信,AI 操作手机的时代来了?》 《“先抖音后剪映” 不再成立,OiiOii 闹闹聊 AI 时代的创作工具和内容社区丨100 个 AI 创业者》 《他给普通人配了个 “AI 剧组”丨100 个 AI 创业者》 《晚点对话明超平:他们不信 AI coding 会是新的创作方式,我很开心》 《25 岁,他想做 AI 时代的微信丨100 个 AI 创业者》(Intent) 《对话与爱为舞张怀亭:大哥创业不走弯路》 「巨头 AI 之战」 《腾讯在 AI 拐点到来前的 700 天》 《字节 AI 再创业:独立组织、全链条的饱和出击》 《重新认识阿里:大踏步迈向 AI》 《字节、阿里、腾讯的 AI 人才竞赛:2330 个研究者背后的共识与分歧》 《字节、阿里、腾讯 AI 大战全记录:一场影响命运的战争》 「具身智能」 《特斯拉人形机器人再延期,因为双手只能用六星期》 视频:《具身智能的幻想与现实》 「AI 硬件」 《这个 30 克的挂件,是 AI 的眼睛丨100 个 AI 创业者》(Looki) 《“通用产品是空中楼阁”,潘宇扬聊 AI 硬件丨100 个 AI 创业者》(Odyss AI 项链) 《对话 VITURE 姜公略:把 AR 眼镜卖到美国第一 ,从负需求到离不开》 《对话拓竹陶冶:我们一群工程师,一起造一个朴素的硬核公司》 《影石 Insta360 刘靖康:当机会稀缺,年轻的后来者如何做到第一?丨新新访谈》 《我们要培养什么样的工程师?李泽湘教授对三十年工科教育改革的回顾》 本期剪辑:甜食、Nick 小红书@曼祺_火柴Q即刻@曼祺_火柴Q ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:

    1h 58m
  3. JAN 25

    具身模型哪家强?与范浩强、高阳聊具身模型的测评、RoboChallenge,26 年具身展望

    「用大规模测评驱散 PR 式 demo 的迷雾。」 虚拟空间的大模型有大量 benchmark,测试非常直观;而在如火如荼的具身领域,怎么衡量模型能力,本身还是需要探索的课题。 这期,我们邀请了两位具身智能从业者,原力灵机联创范浩强和千寻智能联创与首席科学家高阳,一起聊具身模型的测评。 范浩强从高三就开始在旷视工作,有丰富的计算机视觉开发和落地经验;高阳回国前在伯克利 BAIR 攻读博士,和 PI 的联创 Sergey Levine 有诸多学术合作。 去年 10 月,原力灵机和 Hugging Face 联合发起了全球首个具身智能的大规模真机评测平台 RoboChallenge。在前不久释放的最新测评结果中,千寻的 Spirit v1.5 模型登顶榜单,表现超过 π*0.5。 RoboChallenge 测评平台网站:https://robochallenge.ai/home 图注:RoboChallenge 测评现场 在 RoboChallenge 的测评中,机器人不再只活在精挑细选的 Demo 视频里,而是要在多样化的“Table 30”任务中接受真实世界的“毒打”——任务包括碎纸、插花,扫二维码。 这期我们聊了具身模型测评的难点,RoboChallenge、RoboArena 等目前的大规模测评尝试是怎样的思路?行业里心照不宣的 demo 工程,以及 2026 年,我们可能从哪些路径逼近具身智能的 GPT-3 时刻。 范浩强和高阳说,组织和参与测评的过程,组织和参与测评的过程,本身增强了他们对具身的信心,,从 π*0 在 Table 30 任务上只有 20% 的成功率到 π*0.5 的翻倍和一些国产模型的超越,具身仍很早期,但进步速度也很惊人。 本期嘉宾: 范浩强 原力灵机联合创始人 高阳 千寻智能联合创始人、清华大学叉院助理教授 本期主播: 程曼祺 晚点 LatePost 科技报道负责人 时间线跳转: -发起 RoboChallenge,行业呼唤大规模测评 03:24 范浩强和高阳的从业经验 06:53 RoboChallenge 的发起,见证成功率从 π0 的 20% 到 π0.5 的超 40% 12:40 以往方法的问题:环境不一致、测评不持续、仿真有局限 21:47 对比 RoboArena 和 RoboChallenge:前者是分布式 Zero-shot 测评;后者是集中 few-shot 测评 28:33 上线 2 个多月的观察:超预期的 1 万条测试提交,国产模型超越 33:04 Table 30 任务集的设计,插花、扫二维码等任务的“刁钻”考点 40:24 提交者自己做 fine-tune(微调),开源权重证明诚信;接下来会更新灵巧手的测评 -2026 年具身展望 45:07 学习原理已经收敛,Scaling Data 是 2026 年的行业主题 48:53 4 种数据类型,各团队的不同数据 bet 57:20 落地应用,具身的“Coding”任务是什么?“破圈”时刻何时出现? 01:07:00 大众与从业者之间的认知落差,行业心照不宣的“demo”工程 01:12:50 具身测评可以被 Hack 吗?如何反制 hack? 01:14:52 26 年想验证的问题:具身中国追平美国的 DeepSeek 时刻是否到?基模能否上一个台阶? 01:17:47 连点成线:总结观察具身进展的 3 个维度 & 具身创业团队的不同来源 附录:本期中出现的一些人物、技术名词、项目、公司 -Sergey Levine:Sergey Levine,加州大学伯克利分校教授,机器人强化学习与通用学习系统的重要推动者。曾参与 Google / Google Brain 的机器人与强化学习研究,并共同创立具身智能公司 Physical Intelligence(PI)。 -π 系列模型:PI 提出的通用机器人模型系列,最新版本 π*0.6。 -CIFAR:一个经典计算机视觉数据集,相比之后出现的 ImageNet,它规模更小、分辨率更低,常用于快速实验和教学。 -Sunday Robotics:由 Tony Zhao 与 Cheng Chi 在 2024 年联合创立的家庭场景通用机器人公司。 -Generalist AI:2024 年成立的美国通用机器人 / 具身智能的创业公司。 本期剪辑:Nick 小红书@曼祺_火柴Q即刻@曼祺_火柴Q ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:

    1h 22m
  4. JAN 16

    访谈它石创始人陈亦伦:具身的三道曙光和第一道关卡

    「华为前自动驾驶首席科学家投身具身创业。」 本期嘉宾是它石智航创始人陈亦伦,他曾担任大疆创新机器视觉总工程师和华为自动驾驶部门首席科学家。 2021 年,智能辅助驾驶的爆发前夕,陈亦伦在华为带团队开始采集大量真实的驾驶数据,用深度学习替代过去自动驾驶的规则方法,3 万行代码做了过去 200 万行代码的事,这是业界第一批探索端到端智能驾驶的尝试。 陈亦伦说,那一刻,他觉得自己找到了自动驾驶的钥匙,而他还想用这把钥匙去探索一个年少时种下的更大梦想:通用智能机器人,也就是具身智能。 在回到母校清华,于 AIR(智能产业研究院)担任智能机器人方向首席专家 2 年后,2025 年初,陈亦伦和百度原资深副总裁、百度智能驾驶事业群负责人李震宇一起创立它石智航,在最初 2 轮融资中,筹集了超过 2.4 亿美元。创下中国具身智能领域的首轮融资记录。 这期节目,陈亦伦讲述了他从自动驾驶到具身智能的多年技术探索和研发实践,他看到的具身智能的 3 道曙光和 3 道关卡,以及怎么先越过其中的第一道:数据。 本期嘉宾:陈亦伦,它石智航创始人兼 CEO 本期主播:程曼祺,晚点 LatePost 科技报道负责人 时间线: -从华为、清华到创立它石,看到具身的三道曙光 02:35 用神经网络做自驾规控(PnC),3 万行替代 200 万行代码 11:13 三道曙光:强化学习提升运控(locomotion)能力;LLM 处理任务规划;端到端解决极端案例 17:13 端到端、VLA、世界模型,联系与区别 20:40 三道关卡:数据、算法、后训练 24:43 具身还在第一道关卡,数据;最后能经受大量数据的算法结构会很简单;GPT 最伟大的是定义了训练任务是预测下一个 token,而非架构本身 30:16 定义具身模型的训练任务:建立空间概念、跟世界交互 -数据解法:真实数据而非仿真和视频数据,手套采集而非遥操 40:54 具身需要真实数据,不看好仿真和视频数据 49:42 真实数据只有两个源头,世界与人;真实意味着场景真实、动作真实;为可穿戴设备是唯一解 55:08 手套+第一视角摄像头采集数据的具体实现 59:11 具身充满了硬件场景、本体、数据算法间的交替组合和协同优化,中国有供应链和场景优势 01:05:08 没有选择 VLA,具身会有自己的模型,而不是简单在 LLM 上发展 具身已经到了 Scaling 的临界点 01:13:23 看数据增长趋势,具身已经到了 Scaling 的临界点 01:18:04 它石的落地场景之一是处理柔性材料的线束装配 01:21:15 能自己定义目标的具身公司就是靠谱的;成为别人,不是好的选择 01:22:38 连点成线:往期分享 往期具身智能访谈: 晚点聊 112 期:与千寻高阳聊具身:一个像机器人的人,怎么做像人的机器人 晚点聊 96 期:和楼天城聊 Robotaxi:学习人类优秀司机,让我绝望 晚点聊 86 期:We, Robot-2,清华叉院/星海图许华哲看“Optimus”的门道 晚点聊 65 期:信仰充值的威力:与逐际动力谌骅聊聊 GTC 和人形机器人新进展 剪辑制作:甜食 小红书@曼祺_火柴Q即刻@曼祺_火柴Q ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:

    1h 25m
  5. JAN 6

    访谈OiiOii闹闹:“先抖音后剪映” 不再成立,AI 时代的创作工具和内容社区

    「Agent 的工具可以以终为始。」 今天这期节目,是晚点的作者祝颖丽对 OiiOii 创始人闹闹的访谈。本次访谈的文字版今天也会发布在《晚点科技》公众号上。 OiiOii 是一款动画创作 Agent。刚刚在 25 年 11 月开启内测。闹闹自己是一名动画爱好者,2014年,在微信工作 3 年后,她辞职学了半年动画。但当时她发现,做动画太难了,行业环境也很糟。 时隔10年,在自己创过业,去字节做过剪映,在大模型公司阶跃星辰做过二次元社区产品“狸谱”之后,她找到了用 AI 延续动画梦想的方法。 这期,闹闹分享了她和团队是如何构思和做出 OiiOii 的,以及她过去的创业和大厂经历。 图:OiiOii 官网页面。地址:https://www.oiioii.ai/home) 本期嘉宾:闹闹,OiiOii 创始人 本期主播:祝颖丽,《晚点 LatePost》 作者 时间线跳转: 05:06 先做好工具,再去做内容的社区:因为大家不再能忍受内容的单调了 11:40 市场现状:现在动画的产能和消费非常不对等 16:46 OiiOii为什么是这个形态? 31:04 如果做AI漫剧,商业模式、审美都不一样 41:30 怎么利用和理解不同的模型 51:50 现在的团队分工 53:50 第一次创业做极限运动社区,发现其实喜欢做内容 01:06:17 第一次创业留下的最宝贵的东西:抗体 01:18:15 在字节:对剪映和抖音特效最大贡献是… 01:27:17 去了B站:看到产能被憋着了 01:28:45 OiiOii 后面大致的节奏:填充垂类内容,去海外,做内容社区 往期「AI 应用/AI Agent」创始人访谈: 晚点聊 136:Sora新世界 & Lovart 4个月复盘 | 与陈冕聊怎么做垂类 晚点聊 125:用AI复刻一个「我」,与心识宇宙陶芳波聊身份模型 晚点聊 111:Pokee.ai 朱哲清的 Agent 造法:强化学习作后端,语言模型作前端 《晚点对话明超平:他们不信 AI coding 会是新的创作方式,我很开心》 剪辑制作:Nick ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:

    1h 41m
  6. 12/26/2025

    Gemini 3翻盘背后、Agent需要什么大模型、RL创业机会,与前 Google 创业者、硅谷投资人聊湾区动向

    「一线开发者看到的前排变化。」 本期是 137 期 Agentic 工具链节目的嘉宾返场,Henry 和 Naomi,他们近期刚刚和普林斯顿 AI 加速创新中心联席主任,王梦迪教授,一起成立了一家新的早期 VC,MoE capital。 这次一起的也有两位之前在 Google DeepMind 和 谷歌云 Vertex AI 平台工作 7 年,刚刚创业,成立 Agent 工具层公司 Precur 的戴涵俊和 Bethany。 我请他们分享了,岁末年初,在硅谷观察到的 AI 水温,OpenAI、Google 等一系列新模型进展背后的故事,和围绕当今 Agent 与 RL 生态的创业机会。 这是我们本年关于 Agent 的第 8 期节目。 本期嘉宾: Bethany Wang,Precur 联创 戴涵俊,Precur 联创 Henry Yin,MoE Capital 创始合伙人 Naomi Xia,MoE Capital 创始合伙人 本期主播: 程曼祺,晚点 LatePost 科技报道负责人 时间线: -基础模型竞争和幕后故事:Google 在旧金山开 Gemini 3 Party 的同一天,OpenAI 发布 GPT-5.2 06:11 AI 进入实用工作:OpenAI 的 GDPval,Databricks 也发布了 Office QA 14:25 GDPval 在主流知识工作上表现优秀,但基础模型处理长尾问题的 gap 始终存在 19:09 Gemini 3 后,OpenAI、Anthropic、Google、各自的进展 22:15 NotebookLM 和 Nano Banana 策源地——Google Labs,不仅招工程师,也有主编、作家、创作者 24:54 DeemMind 研究员 Orio:Gemini 3 的秘密?预训练还有很多空间;TPU 对 Google 训练的加持 26:34 Google 的 3 层协同优化:从 TPU 到 Infra 到模型;模型和应用;数据和硬件 surface(终端) 30:18 Google TPU 已经更多对外,这对英伟达 GPU 优势的影响 38:02 回顾组织变化:DeepMind 和 Google Brain 的合并与磨合 -大厂竞争中,新公司的成长:围绕 RL 与 Agent 的创业机会 43:31 垂类的机会:弥补基础模型到具体问题的差距;水平的机会:调度层、数据层、工具层都有新公司涌现 50:17 技术新趋势——自我演化:RL、用 RAG 加长记忆有人尝试,但远不是成熟方案 53:32「可训练的工具层」背后的技术变化:code 驱动工具,如 Anthropic 的 PTC(Programmatic Tool Calling) 59:44 RL 创业方向:RL 环境,RL as a Service,RL 应用 01:08:47 Agent 开发者挑选模型的前置条件:用什么云(比如 Azure 客户用不了 Gemini),再看云厂商折扣 01:12:20 Anthropic 的 Claude Code 已成为 Agent 核心,刚发布的 Promatic to Call 探索新开发范式 01:17:13 开源模型使用体验:Qwen 很棒;驶往 NeurIPS 的飞机上,1/3 人在看 DeepSeek-V3.2 技术报告 01:22:04 选择模型时,关注什么 benchmark & 为什么? 01:29:34 模型优化方向预测:加入大量 agent trace 的开源模型,更强的多模态,长程任务优化 01:38:58 连点成线:往期节目推荐 《晚点聊》今年关于 Agent 的更多节目: 晚点聊 106 期:与真格戴雨森长聊 Agent:各行业都会遭遇“李世石时刻”,Attention is not all you need 晚点聊 110 期:《与明势夏令聊Agent竞争:通用入口之战就要来,创业要做垂、做专》 晚点聊 111 期:Pokee.ai 朱哲清的 Agent 造法:强化学习作后端,语言模型作前端 晚点聊 130 期:手机Agent大幕拉开!从刚上线的AutoGLM 2.0聊起,大模型如何改造手机 晚点聊 136 期:Sora新世界 & Lovart 4个月复盘 | 与陈冕聊怎么做垂类Agent| 晚点聊 137 期:Agent 是机会,造 Agent 的工具也是|从OpenAI开发者日聊起 晚点聊 138 期:从你用手机到它更懂你,OPPO的手机AI实践 |与小布负责人万玉龙聊端侧AI 附录: 本期中提到的一些 benchmark: -GDPVal:OpenAI 今年 10 月发布的、用于评估大模型在复杂推理与决策场景中“价值对齐与结果质量”的验证型 benchmark,强调输出是否符合人类偏好而不只是“做对题”。 -ARC-AGI-2:ARC Prize 今年 3 月发布的、用于测试模型在少样本条件下的抽象、组合推理能力,被视为接近“通用智能门槛”的挑战集。 -OfficeQA:Databricks 今年 12 月发布的、围绕办公场景(文档、表格、邮件、日程等)的 benchmark,用来评估模型在真实工作流中的信息检索、理解与执行能力。 本期中提到的一些产品/服务、公司 -PTC(Programmatic Tool Calling):Anthropic 今年 11 月底发布的一种新的工具调用方法 https://www.anthropic.com/engineering/advanced-tool-use -Tinker:Thinking Machines Lab 今年 10 月发布的首个对外产品 https://thinkingmachines.ai/blog/announcing-tinker/ -Preference Model:一家旧金山初创企业,做强化学习环境 剪辑制作:甜食、Nick 小红书@曼祺_火柴Q即刻@曼祺_火柴Q ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:

    1h 41m
  7. 12/17/2025

    对话极壳孙宽:首个「消费级外骨骼」的诞生

    「创业治好了我的死亡焦虑。」 极壳是第一家把外骨骼做成消费级产品的公司。21 年成立以来,他们经历过账上只有20万元人民币的危急时刻,也刚在今年融到了 7000 万美元,出货量达到数万台。 图注:极壳已发布 4 款消费级外骨骼产品。 这只是个开始,远远不意味着成功。孙宽多次告诉我们,消费级外骨骼还在非常早期的阶段;他享受定义一个新品类的乐趣,也深知跨越鸿沟,走出小众市场的挑战。 这是一家起步时没有风口的公司;这是一个父母开手机卖场,从小做各种发明,但没有名校光环的创始人。 孙宽分享了他早年的“折腾”经历,他创立极壳、开发出第一款产品的故事,以及他对未来的更多想象。 图注:孙宽是一个户外爱好者;极壳的主要目标用户是户外人群,外骨骼可以帮助他们增强运动能力。 本期嘉宾:孙宽,极壳创始人 & CEO 本期主播: 程曼祺,《晚点 LatePost》科技报道负责人 李梓楠,《晚点 LatePost》科技报道作者 时间线跳转: -水滴字幕、光固化 3D 打印机、3 年轮岗、内部创业 03:05《攻壳机动队》、90 后的科学幻想、技术是魔法 13:25 第一份工作:从轮岗 3 年到模块化 PC 的内部创业 18:27 一次误诊后回到初心:做一件做着做着挂了的事也不会后悔 -从 1 人公司,到第一款消费级外骨骼 26:51 1 人公司手搓原型,一度账上只有 20 万元人民币 40:06 做“真有用”的消费级外骨骼:拉高核心正面效果,尽量降低负面影像 49:41 推倒第一代方案,用户体验比新架构重要 01:04:27 正式交付 Hpershell X,有人日行 7 万步,有人重返户外 -效率的迭代:从 40 个月到 5 个月 01:09:11 从成立到第一款产品,40 个月;第二代产品,5 个月 01:05:08 从 1 人公司,到 4 位联创和 200+团队 01:25:47 对拓竹组织的观察:好的人,希望身边都是好的人 -跨越鸿沟 01:32:52 品类跨越鸿沟:营造向往、价格、自研、形态拓展 01:49:47 组织跑得更快 -创业之后更踏实了,“活对了的感觉” 01:56:22 创业治好了我的“死亡恐惧”。 01:59:53 广义的外骨骼,最终是让我们的身体可编程。 02:05:40 连点成线:后记 & 往期节目推荐 往期「消费科技」创始人访谈: 晚点聊 120 期:科创板后再访Insta360刘靖康:这何尝不是一种极限运动! 晚点聊 141 期:大疆激光雷达前负责人做了台“电动轮椅”?与 Strutt 洪小平聊创业两年半:不做人形也能通向具身 往期「AI 硬件」创始人访谈: 晚点聊 107 期:与Haivivi李勇聊月入千万的AI Jellycat:小众AI硬件×大众消费品的交叉口创业 晚点聊 118 期:天生卷王郭人杰:从 97 年的扫地机器人总裁到创业做家庭通用机器人 晚点聊 122 期:10分钟朱啸虎投资,泡泡玛特、米哈游都在试;Fuzozo孙兆治聊AI潮玩 剪辑制作:甜食 小红书@曼祺_火柴Q即刻@曼祺_火柴Q ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:

    2h 8m
  8. 12/11/2025

    从「大而强」到「小而强」,密度法则、RL 的 Scaling Law 和智能的分布式未来

    本期嘉宾,是清华大学的刘知远和肖朝军,他们刚在 11 月的《自然》杂志《机器学习》子刊上发表了封面文章:Densing Law of LLMS,大模型的密度法则。所谓“密度”,就是用更少的算力和数据获得相当乃至更多的智能。 刘知远是清华计算机系副教授和面壁智能首席科学家,肖朝军现在在清华做博士后,也是面壁 MiniCPM 系列的文本模型负责人。 图注:此图描述了 2023 年 4 月之后,主要开源模型的能力密度的变化。能力密度是衡量单位参数/算力下,模型能力的指标。目前版本的密度法则总结了预训练大语言模型的密度变化,o1、R1 等后训练强化学习对能力密度的提升尚未体现在指标里。 我们讨论了密度法则研究的源起,也展开聊了业界提升模型能力密度的具体做法:如何从架构、数据治理、算法和软硬协同优化 4 个环节着手提升模型能力密度。 而再往后,更大的密度提升,可能需要一些全新方法,因为强化学习的 Scaling Law 还未清晰展现,未来可能有两种技术路线:一是继续扩大强化学习的规模,观察其中是否涌现更多泛化能力;二是寻找新的学习方式。 在刘知远的设想中,未来,更高密度的模型,会支持每个人在端侧的专属模型,智能会分布式存在:也许手机都不是最终的入口,而是一个可以随身携带的个人计算设备:“就像一个可以随身携带的 NAS”。 图注:达到 GPT-4V 水平的模型参数规模随时间增长迅速缩减,而端侧算力快速增强,当芯片电路密度(摩尔定律)和模型能力密度(密度法则)两条曲线交汇,端侧设备将能运行以往只能在云端运行的大模型。 性能一直是人们更关注的模型演进的脉络,而这期我们会讨论,在另一条主线“效率”上,我们可以做出什么努力。 本期嘉宾: 刘知远,清华大学计算机系副教授、面壁智能首席科学家 肖朝军,清华大学计算机系博士后、面壁智能 MiniCPM 系列文本模型负责人 本期主播:程曼祺,《晚点 LatePost》科技报道负责人 时间线跳转: -大模型时代的“摩尔定律” 02:09 Gemini 3 和 Nano Banana Pro 的启发:统一的“自回归式视觉+语言生成”即将突破 04:31 大模型演进的两条主线:能力和效率 10:23 和摩尔定律一样,“密度法则”是行业现实,也是“自我实现” 18:43 每 3.5 个月,大模型的能力密度翻一番 21:01 2023 年下半年的抉择:花几千万再训一个更大的模型,然后呢? -提升密度的四个环节 27:08 架构、数据、算法、软硬协同优化 30:41 (1) 架构:MoE (混合专家系统) + 注意力机制改进 34:28 (2) 数据治理:Ultra-FinWeb 用 1/10 数据量达到更好效果 40:24 (3) 算法:RL 还没有 Scaling Law,接下来可能有两条路 49:21 (4) 软硬协同优化 52:02 InfLLM-V2 的核心更新:把稀疏注意力做到预训练阶段 55:18 注意力改进趋势:长文本不仅是长输入,更多关注“长输出” -大模型上车、上手机 58:53 5 年内,手机可跑 GPT-4~5 级别的模型 01:06:23 大模型在汽车上已开始量产落地 01:10:34 “别人得到的,不一定是你失去的”,AGI 既会发生在云端,也会发生在终端 01:15:07 未来入口也许不是手机,而是属于每个人的移动计算终端 -AGI 下一步:自主学习 + 分布式的智能 01:17:40 自主学习→AI 协作网络→真正的创新 01:21:04 2023 年初,有巨头说世界上只会拥有几个大模型,就像 1943 年,IBM 董事长曾说全球不需要超过 5 台主机 01:24:46 AI 助手帮成为更好的工作者 01:28:53 不担心生产过剩,未知领域还太多 01:31:39 机器制造机器,AI 制造 AI 01:40:01 ☆连点成线 相关链接: 晚点聊 143 期:《再聊 Attention:阿里、Kimi 都在用的 DeltaNet 和线性注意力新改进》 晚点聊 103 期:《用Attention串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进》 剪辑制作:Nick 附录,本期提到的一些论文(更多具体名词解释,见本期文字版): Densing law of LLMss(《大模型的密度法则》) Efficient GPT-4V level multimodal large language model for deployment on edge devices(本期中提到的,具身行业喜欢引用的图的原始论文。) InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation(InfLLM 稀疏注意力改进的第二版。) 本期主播: 小红书@曼祺_火柴Q即刻@曼祺_火柴Q ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:

    1h 42m

Ratings & Reviews

4.2
out of 5
31 Ratings

About

《晚点聊 LateTalk》由《晚点 LatePost》出品。 最一手的科技访谈,最真实的从业者思考。

You Might Also Like