卫诗婕|漫谈Light the Star

卫诗婕

更有生命力的科技商业访谈。 Explore better tech reading. Hello~如果是新朋友,推荐几期具代表性的必听节目:1.感受创始人访谈的魅力——第40期(影石JK)、第51期(Plaud许高)、第34期(fellou谢扬);2.感受商业和良知的魅力——第24期医改与集采(必听)、第28期英伟达、第25期聊回购。相信听完这几期,会对这档节目的定位——做最有生命力的科技商业访谈——有更具象的认知。(公众号、各平台视频账号同名) 我是诗婕,做过社会调查、特稿记者、科技媒体主编。关注科技商业进步与公共利益~我会把自己持续学习的过程开源给大家,在这里也能学习AI、具身智能、全球化等前沿领域。在这里,点亮科技星空。 希望一起描绘、定义、推动一个更美好的世界。:) ———— 关于诗婕:虎嗅2024年度作者、金字节奖年度新锐作者、网易非虚构文学奖年度作者、全球真实故事奖TSA(True Story Award)。 合作洽谈 👉 微信:SJ_Jelyne(添加请备注身份+事由) 听友读者互动,欢迎加入听友群(每期节目简介会更新群二维码)

  1. 76.与 00 后创业者源培的访谈:从 RoboMaster 到李飞飞实验室、两次「全球首次」,与自由快乐的非标人生

    2d ago

    76.与 00 后创业者源培的访谈:从 RoboMaster 到李飞飞实验室、两次「全球首次」,与自由快乐的非标人生

    AI 原生一代,将写下怎样的新故事。这是这一轮 AI 浪潮以来,投资人们最关心的问题。 今天的访谈嘉宾,是 00 后具身创业者,陈源培。 他曾在斯坦福李飞飞的实验室,实现了全球首次双臂长程灵巧操作,以及全球首次「用人类数据训练机器人双臂灵巧操作」。 土木工程本科出身的他,高考前一天还在打游戏,却通过 Robomaster的比赛结缘机器人,并跨界师从北大强化学习专家杨耀东,成为强化学习的前沿学者,继而进入斯坦福李飞飞的实验室,做出全球首创的成果。 相比「天才少年」叙事,这期更值得品味的,是一个一再印证,学习没有固定范式、创新没有标准答案的故事。以及开放、多元、包容和谦卑的学术品味与视野。 无论游戏、RoboMaster、科研,在源培那里都有一条共同线索:它们都像升级打怪,靠快速学习、持续探索和反馈提升能力。希望其中的思考方式,能给大家启发。 (本期视频欢迎前往 b 站、视频号、小红书、Youtube 等平台观看~) 本期嘉宾:陈源培,灵初智能联合创始人 本期 Shownotes: 02:51 从游戏到 RoboMaster:工程能力从系统里长出来高考前还在打牌的 00 后:通宵打游戏,差点被选去电竞青训 父母最大的影响是「完全不管我」 大疆 RoboMaster 冠军:机械、电控、嵌入式、上位机、控制、算法…训练的是复合能力 深入代码底层,不会并不是一个门槛 机器人并不是单点算法问题,全栈系统思维是稀缺的 工程性的东西,更多看的是细心程度与快速学习能力 俄乌战争给源培的「觉醒」——突然觉得发 paper 、抠创新点,对世界没什么帮助 16:41 师从杨耀东,最早 Isaac 使用者与并行仿真师从强化学习知名学者杨耀东,用强化学习做灵巧手 零帧起手强化学习 OpenAI 的 Shadow Hand (2019)的解散,强化学习解魔方——酷但昂贵 「我是英伟达 Issac 最早的使用者」「那个版本应该绝版了」 「未来用 GPU 做仿真,一定是大势所趋」 首篇论文即震撼行业:高自由度操作可以在大规模并行仿真中训练出来 35:05 强化学习 vs 模仿学习,什么是训练直觉?强化学习的峰回路转:监督学习和模仿学习的短期效果让强化学习一度被质疑;直到O1 等方向又重新证明了强化学习的价值 模仿学习见效快,但泛化弱;强化学习潜力大,但极吃 Know-how 模仿学习不是未来 从人手中心到物体中心:描述物体轨迹如何变化,让机器人知道大致目标,再在小范围里探索 奖励不需要把每个动作写死,需要留有空间任 AI 自己探索 真正的系统能力是「方法都告诉你了,但你调不出同样效果」 我训强化学习还挺厉害的:「基本上大家以前都看曲线,只有我是打开仿真,盯着机器人学习。」 43:37 进入斯坦福李飞飞实验室:从强化学习中心主义,到多元的学术视野,与技术地图每条路线都有价值,未来更可能是吸收各自优点的融合过程 更开放的研究氛围:连接图形学、灵巧手、模仿学习、人类数据 师从 Karen Liu :把机器人操作、动捕、人类数据和仿真强化学习连接起来 不要太 Ego,不要靠形容词证明强,让结果本身说话 一周可以水一篇顶会的代价是放弃自己其他可能性 「从斯坦福回来后,他像变了个人一样」 50:51 跳出舒适区 + 螺旋上升的具身技术史具身技术发展的螺旋:抓取→ CV+模板 → 直接学轨迹(模仿)→ 人遥操太慢 → 强化学习自己探索 → 仿真效率低→ Isaac Gym 并行仿真+Sim-to-Real → Sim2Real Gap 太大→ 软体场景模仿学习反超(Diffusion Policy/ACT)→模仿学习也不够→ 后面接强化学习→世界模型起来后,又回到仿真训 RL 灵巧手最大的价值,不是因为它像人,而是因为它最容易吃下人类操作数据 与夹爪或专用末端执行器相比,五指手和人手之间的 Embodiment Gap 更小,更适合做 Human-Centric 数据采集 「以物体为中心」的通用表征:操作的本质是让物体沿某条轨迹发生变化,而不是复刻人的每个关节动作 具身 Scaling Law 的核心可能不在遥操数据,而在人类日常操作数据; 硬件形态本身会决定能吃下什么样的数据 Sequential Dexterity 的祛魅:学术需要 novelty,这没太大意义 58:26 仿真派的价值和上限我曾经就是个仿真派 仿真无法根本解决真实世界复杂交互,尤其在软体、碰撞、接触和高精度成功率方面 可微仿真和世界模型都试图缩小 Sim2Real Gap,但目前仍受限于算力、图形学、物理交互和数据量 仿真 vs 真机,谁快?仿真的场景 Scaling 能力未必比真实世界快 仿真可以做出很 Fancy 的 Demo,但不是当前可见的终局 如果世界模型足够强到生成全场景仿真,它本身也需要先吃下海量真实数据——如果做出了世界模型,那肯定先做出了好用的 VLA 一个研究者最重要的能力不是在舒适区里把"已经会的事"做得更深,而是逼自己跳到不熟悉的方向;这一点反人性反惰性,因为你在擅长的方向也确实有想探索的东西 01:17:02 具身 Scaling Law 会撞上硬件问题具身 Scaling Law 的核心问题是数据,单靠遥操数据很难堆到足够规模 百万小时级别的人类中心数据,至少能让行业看到一些效果 「我是实用主义派」 与语言模型不同,具身智能会遇到硬件差异:不同手、不同本体、不同自由度都会影响数据和模型泛化 跨本体泛化的关键,是提取人类操作中通用的信息,再用强化学习补足机器人具体关节、力和接触细节 语言模型可以在统一的 token 空间里 Scaling,具身智能必须同时解决数据规模和硬件本体差异 01:22:12 创业后的路线选择:先坚定,再快速调整2024 创立灵初时,市场上很少有人强调灵巧手操作和强化学习 择做长程灵巧操作、强化学习、人类中心数据和双手路线,对于一家创业公司,是信仰和耐心的考验 要去做别人做不到的事 当前的路线没有不能复刻的,都不够本质:但仍然保持灵活,可快速调整 具身创业的难点是同时平衡商业化和预研,短期场景可以做,但公司不能忘记自己到底是不是模型公司 「你不能有包袱,最后还是结果说话。」 01:38:04 世界模型、VLA 和算法口号的泡沫灵初的具身大脑是糅合路线:硬件、采集、数据处理、模型训练和部署,形成端到端闭环 模型架构和口号本身不是护城河 广义 VLA 只要输入视觉和语言、输出动作即可 World Action Model 也只是增加未来帧预测等辅助监督 单靠改模型架构、模块连接方式就带来突破性变化,我认为这几乎是不可能的 真正重要的是训练范式、数据规模、数据质量和完整 Infra 马斯克为什么不喊世界模型——世界模型本身不产生价值,真正产生价值的是它能否在具身、能源、航天或其他真实任务中解决问题 具身行业的泡沫:太多人说的和做的不一样,一些投资看不太懂 01:45:05 主动世界模型:从数据里选择有用信息关于「主动世界模型」的思考:机器人需要主动判断哪些信息有用,哪些是噪声 世界感知分成客观世界规律、主动选择机制和自身 Policy 三层,其中最缺的是中间那层主动选择 数据 Scaling 不是无脑加数据,低信噪比数据可能损害模型能力 我是实用主义:脑科学、神经元结构、主动世界模型等想法都可以借鉴,但必须通过效果验证 具身下一阶段的底层创新:可能不是继续堆模块,而是找到类似语言模型 next-token prediction 的训练范式 02:03:15 「我的人生,绝对不可能不快乐!」——兴趣、非标与系统性思维不要害怕环境、专业或起点带来的限制,去做自己真正感兴趣的事 机器人人才,最重要的三点:追求卓越、系统性思维、不要太 Ego 「再垃圾的 paper,也有你可以学习的点!」 「我追求的是影响力,对真实世界产生价值的影响力」 未被验证的人才和未被验证的路线,可能写下真正的突破 加入听友群⬇️: 在小宇宙查看该单集文稿

    2h 15m
  2. May 29

    75.登顶大摩全球人形机器人报告,灵初凭什么代表中国?|与创始人王启斌聊「灵巧操作」

    2026 的上半年,中国资本市场围绕具身进行了大规模的布局,将具身大脑这个赛道推向了前所未有的热度。 这期的嘉宾灵初智能,刚刚登顶了摩根士丹利最新发布的《全球人形机器人研报》,它被视作中国具身大脑阵营的核心代表之一。从灵巧操作出发,这条大脑路线直指智能的上限。 创始人王启斌是 70 后产品背景,乔治华盛顿大学博士,完整经历了"智能设备 → 移动机器人 → 具身智能”的三次范式更迭。 我们的访谈不仅涉及到大量具身行业的真实进展,也描绘了在具身这个早期行业中,从研发(R)到工程(D)到产品(P),所谓 RDP 的全流程。 2024 年,70 后王启斌,和80 后算法老兵柴晓杰、 90 后北大学者杨耀东、00 后天才少年陈源培,组成了灵初智能这支具身“7890 战队”,成为这个行业背景最豪华的团队之一。 (本期访谈的视频版已经登录 B 站、视频号、微博、小红书、Youtube 等平台,欢迎前往观看~,文字版可前往公众号「卫诗婕 漫谈 Light the Star」) 本期嘉宾:王启斌(Viktor)· 灵初智能创始人本期 Shownotes:Part 1. 00:00-08:56 让机器人「动手」,为什么是皇冠级的大脑问题?灵初是谁? 被摩根士丹利视作中国大脑核心代表,灵初是谁? Hugging Face 上 1000 小时多模态数据集下载量第一 希腊字母第 23 个 Psi(Ψ),意指强化学习,「像孩子一样在环境中交互、逐渐长大」 为什么做大脑的公司普遍估值更高? 什么是通用灵巧操作?为什么说人类操作数据是一座富矿? 操作的三种能力:对任务做长程语义分解(规划)、手眼协同、实时纠错人类能力的演进顺序:行动最早(灵长类)、视觉次之(寒武纪)、语言最晚——而机器恰好相反机器人不一定像人类那样大脑/小脑严格分开,目前没有完美的大小脑结构能拟合类人能力夹爪很难做类人复杂操作操作知识不具备可传承性——如何把人类经验挖出来变成可训练的数据,是具身要回答的根本问题 Part 2. 08:56-20:04 Why now:具身浪潮,周期与淘汰赛2026,具身为什么更热了? 「新的浪来了」:过去几波范式不会持续这么长why now 的底层:具身是真正回到物理世界的问题 具身的市场,只会比智驾更大:上一波公司的顶点,可能是下一代公司的起点 跑完一个 cycle 约 7 年:至少会有三轮淘汰赛 关于王启斌:黑莓vs苹果,一个产品老将经历的范式更迭 黑莓曾是全球唯一净利率 25%+ 的公司(另一家是苹果) 从苹果开始,ToB/ToC 没有绝对分割 什么是苹果真正的胜负手? 新世界物种对旧世界的降维打击,是如何发生的? 「站在旧世界的人不用 complain,这就是宿命。」 「当年带 Sonos 全球 CEO 见百度陆奇,是我的心结」 什么样的 ToC 产品能击穿 ToB?苹果做到了。具身领域有机会吗? 20:04 中美硬件之争,穿越周期的产品经理,与审美 审美的物质基础:Jony Ive 的设计传统在英国,小米设计领导人传统在德国,消费电子审美在欧洲Sonos 和 B&O ——两种产品哲学小米生态链/IoT 兴起(2015)后,中国消费电子工业设计的崛起&底层:从整机到核心零部件的全链路掌控 + 快速迭代 Part 3. 中美硬件之争,两代机器人公司,谁会赢?「美国大脑领先、中国硬件领先」,人们只看到了轨迹的起点 为什么从泛化性居中、节拍较低的物流和服务业 toB 切入 5 年内「只做模型不做硬件」是伪命题——具身现处于软硬深度耦合阶段 落地两种形态:固定上半身、可移动+上半身——两种构型,训同一个模型 具身的数据飞轮和车完全不同——车有存量市场,具身去年头部出货才 5000 台,飞轮必须靠人类数据冷启动 上一代自动化机器人 vs 具身新秀派,谁会赢? 上一代移动机器人靠 SLAM(2015 前后)和基于规则的技术,深耕单一场景;当下具身解决更复杂的操作问题,用 learning base 的学习范式,人才完全不同 三个顶层问题:解决什么问题、用什么技术路线、什么样的人才; 创新者诅咒:成熟公司有自己的场景循环,可能恰恰是负担 仓储物流、无人配送领域,全是创业公司赢了(海柔、极智嘉、新石器)——阿里、美团、京东,为什么都落后了? 「原来真的是书上得来终觉浅……谁有场景谁赢,是个错误。」 Part 4. 灵初的成立:7890 战队 & 科学家创业潮横跨中美,花半年时间找科学家: 国内能做灵巧操作的不超过 10 人 如何判断科学家是否适合一起创业? 在斯坦福李飞飞实验室的 00 后联创:强化学习,将人类数据迁移到灵巧操作的 Sim2Real 「7890 战队」:为什么具身需要的人才跨度大?跨代际和领域的融合难度? 怎样治理一个软硬数据耦合的复杂组织? 为什么「量产那套」不完全适用于具身大脑研发? AI 时代,为什么强调「治理」而非「管理」? 硬件派 vs 模型派的路线分野:从硬件出发(做到稳定便宜规模化,特斯拉思路)vs 从模型和数据出发(用优质数据训模型,灵初思路) Part 5. 01:01:06 具身数据的真问题,与中国的另一种叙事可规模化预训练的优质数据长什么样?数据管线怎么做? 算力、数据手套与数据飞轮:灵初的真实数据方法论 什么是检验真做大脑 or 水货大脑公司的金线? 数据洞察:手的 3D 关节角精确度 > 触觉 > 2D 照片; 全模态数据,比纯第一人称视频更精确丰富 行业最大的10 万小时手部多模态数据怎么来? 数据管线 = 数据处理平台(审核、标注、处理)+ 进训练框架训模型 + 模型反馈 +抽象出数据洞察 具身数据乱象:已经出现一些空置的数采场 没有模型需求方牵引,数据采集一定是无序、低效、垃圾场级别的 只有真正在训模型的大脑公司,才有资格定义「需要什么数据」、才能分辨「什么是 garbage」; 「投资人最后看的是这道菜到底怎么样,他并不知道这道菜里头真正用了多少调料。」 具身大脑看美国?中国有机会做出好大脑吗? 中美数据成本差约 10 倍,低成本 + 多样性是中国的机会 关于派(Pi):证明了真实数据在夹爪上能泛化,验证了真实数据路线 现在远没到具身的「ChatGPT 3.5 时刻」:非结构化环境的通用还很漫长,但「专注一个 domain 」的通用是可以做出来的灵初的双模型架构:R 是策略模型(输入图像/语言/本体状态,生成动作);W0 是世界模型(像真实世界仿真器,评估动作后的状态,用强化学习优化、放入约 30% 纠错失误数据),两个模型串成闭环,再回流生成新数据集主流架构(Transformer)能不能成为绝对垄断架构,还需数据验证——Transformer 是在 GPT-3.5 之后吃掉巨量数据、加上强化学习才被验证的;具身底层架构的有效性,同样要靠足够的数据来验证 Part 6. 01:22:54 「游戏才刚刚开始,第一轮淘汰赛都还未开始。」具身大脑公司,怎么做? 大模型&后训练人才:创业公司怎么和大厂抢人? 最难的事怎么解决?——「没有失败过的成功,是不可信的」 为什么拒绝把灵初定位为一家「AGI 公司」? 通用灵巧操作是技术通货:「未来我们甚至可以不做机器人」 AI 时代的产品经理有三个圈——懂技术、懂 UI(用户交互)、有商业思维 从 R(research),到 D(Development),到 P(Product)——如何在一个大组里快速迭代? 选场景必须同时满足两个条件:有真正商业价值的共性痛点(应用面广)、且符合数据泛化性需求 进工厂的事故责任:作为供应商有协议要负责,高节拍流水线很难,流水线下的供料等场景可跑通; 「具身这个行业早已被客户簇拥」 「曲线已开始跑但还没到真正拐点」「今年底是模型泛化性的第一个验证阶段」 基于数据量的模型迭代军备竞赛已开始,周期 3 年以上「百万小时数据是我们最早提的,现在所有人都这么说时反而要警惕」 Part 7. 01:53:30 一个 70 后创业者的务实 & 浪漫创业是冲浪还是西西弗斯:不存在"走到某阶段就彻底释放",过程本身才最重要 「某天清晨阳光斜照在 logo 墙上的一瞬间」 真正的中年危机:40 岁时,最怕未来与自己无关 「我最讨厌被叫老板」 我强烈推荐你去读摩根·豪泽尔的《Same as Ever》 创始人的基因(vision/mission/经历)真正决定了公司的路径 DeepMind 哈萨比斯押注 AlphaGo 做出世界级成果,却 miss 了大语言模型;OpenAI 以"安全/非营利"起家,最后一批人出走创立 Anthropic——同一场 AI 史诗里有各种活法 加入听友群⬇️ 如果你是具身领域的专业 researcher ,欢迎添加主播微信(SJ_Jelyne). 在小宇宙查看该单集文稿

    2h 5m
  3. May 25

    74.与地瓜、阿里云的访谈:机器人爆发前夜,工程师成长,与 AI 的第三朵云

    回看历史,人类信息化的每一次范式转移,都有着相似的规律。移动互联网时代的真正到来,并不是因为第一代智能手机的组装下线,而是因为 iOS 和安卓生态的建立、云基础设施的普及,才让千千万万的独立开发者能够以极低的成本创造出改变世界的应用。 开发者成群涌现的前夜,往往是奇点到来的钟声。 今天的嘉宾,正是为这场范式革命加速的具身基建创业者。地瓜机器人的基础设施研发负责人秦玉森,以及阿里云无影事业部总经理张献涛博士。 秦玉森有着 20 多年的机器人开发经验,也是一名成熟的技术管理者 。在这一轮具身革命中,他与地瓜机器人,致力于打造机器人行业的母生态。 张献涛博士则亲历了移动互联网时代,云生态的建立。这期节目中,他清晰地讲述了,云计算,将如何成为撬动整个具身商业社会的超级杠杆。 这期内容不仅包含大量机器人的硬核技术,更是一部关于技术、人才以及基建变迁的微观商业史。 本期嘉宾:秦玉森 - 地瓜机器人的基础设施研发负责人 张献涛 - 阿里云无影事业部总经理 本期 Shownotes:Part 1 . 03:06 机器人之梦 2000 年前后的机器人竞赛 九号收购赛格威机器人之后 北有九号,南有大疆 Part 2. 11:04 工程师的黄金年代 工程师的职业发展启示 & 工程师如何改变世界 技术管理挑战:《人月神话》 从工程师到架构师:认知从线性变立体 Part 3. 22:18 拐点已至:机器人爆发前夜 何为「战略节奏」:需求牵引出结构洞 自动驾驶与具身的人才大战:两个行业的前世今生 大模型降低工程师门槛,晶体智力 & 流体智力 实干家、具身三大派创业与各自的职责 机器人的美在于不完美 Part 4. 35:25 AI 时代的第三朵云:打造机器人的母生态 过去,机器人开发有多难:从重装电脑开始 中国STEM教育领先,小学生玩机器人很常见 什么是机器人的空气、土壤和水? 具身的「重复造轮子」:资源饱和溢出 为什么 Infra 人才特别稀缺? Part 5. 51:27 具身智能融资战 & 场景之战 资本泡沫可以让这个行业快速试错和试对 共识会极速形成 2025 每月的技术进步,快于过去的每一年 工程师培养,从 8 年压缩到3 年 年轻人脑子里的噪音更少,跑得更快 Part 6. 01:10:41 云的变迁 从云计算,到终端智能云计算 阿里云往事:All in 无线,关键一役 机器人时代的第三朵云,长什么样? Part 7. 01:24:02 AI 时代,云架构重构,Agent 与阿里的 TokenHub 什么是 Token 经济?阿里巴巴为什么要组建 Token Hub? 云上输出 token,独立开发者可推动浪潮 当 token 资源不再稀缺,大模型时代爆发期也将过去 Agent 加速机器人自进化,机器人在「做梦中」实现进化 养虾是养一群虾:必须是智能体群协作 Part 8. 前夜:开发者爆发、AI 原生代与利他生态 技术、终端和开发者工具的普惠体系 加入听友群⬇️ 在小宇宙查看该单集文稿

    2h 1m
  4. 73.【520 特辑】AI +爱,赢了!|与黑客松冠军夫妇的随兴访谈

    May 20

    73.【520 特辑】AI +爱,赢了!|与黑客松冠军夫妇的随兴访谈

    这是一期5·20特别节目,嘉宾是前不久举办的小红书黑客松大赛的硬件组冠军得主:一对用 AI Coding 和动手能力,实现了用意念控制轮椅的年轻夫妇。 2020年10月,肥牛在婚礼的答谢宴期间出现放射性剧痛,之后被确诊为脊髓占位,一种极其少见的脊髓肿瘤。在这之后,他经历了两次手术,并在第二次手术后出现瘫痪症状。 他说, 「人在一定程度的痛苦之下,那个痛苦是压制不住的;」「当时如果说给我一个按键,左边是生,右边是死,我已经按了很多次死的这个按键了」 经历了六年多的康复,肥牛通过坚持运动恢复了一定的行动能力,目前可以短距离行走,长时间仍需依赖轮椅。 从自身和脊髓受损人群的需求出发,他们与一群AI,合作实现了用脑机信号指挥轮椅前进的创意和demo。这个项目,成为黑客松大赛当晚,获得最多掌声的项目。 我在黑客松的第二天,与香菇肥牛夫妇录制了这一期播客。这是一个浓缩了太多生命力的故事:勇气、希望、爱情,以及 AI 时代最小单位能够实现的创新,还有,技术的温度。希望你喜欢~ 本期嘉宾:肥牛(轮椅男主,脊髓损伤康复者,自媒体博主「肥牛在康复」&「肥牛卷不动」 香菇(元气女主,纯爱战神) 本期 Shownotes:Part 1. 噩耗,战神,与「种一棵树」05:56「我们一起在种树,种的小树就是我们的情感,它慢慢发芽,其实它也是独立的」 06:55 按下「死的按键」——瘫痪后的玄学慰藉、第二代版本的人生 失能群体的标准路径:找医生 → 找玄学 → 容易被骗 社会基础设施的缺位——医学走到尽头时,玄学是必经站,骗子的密度也最高 两次手术:医生 30 年未见的罕见病 深夜高速路上的「遗言」:「看到她害怕,我也不敢说了」 「我们先学会了告别」 Part 2. 「缩短我与魔法之间的距离!」21:49对标蔡磊先生的渐冻症管线开发:我想做「脊髓损伤管线开发」 脊髓损伤群体在中国约有三四百万,但医院康复科没有专门科室 产品匮乏:大小便恢复训练,用的是产后孕妈妈修复器械 "我无法原谅你们,我要永远拉黑你们" 无障碍科技往往由无障碍人士自己做:需求足够痛、对世界的改造欲和创造欲都更强 27:21 产品经理 + AI 调度师:一群 AI 在背后,我们就是千军万马 两个人+ 两台电脑 + 6 个 AI + 对应 agent:24 小时超预期实现 idea! 没参赛的备选项目:会唱歌的尿壶(背后也是一个感人故事) AI 时代的最小创新单位:创新门槛与成本的下降 真痛点产品的特征:「从经历中长出来」 31:55 善用 AI 等于管理 AI——把自己当公司,AI 当员工 不同 AI 的「AI 格」:Gemini 是"用爱训练出来的小孩"(脑电波被画成爱心形状),Claude 理智但极其傲娇(听不了一点坏话) 员工管理的四要素:了解特长、了解边界、合理分配、按贡献给待遇(充会员 vs 不充) Agent 像乐高:写代码、PPT 渲染、3D 模型修改各有分工,按工作流排序就能跑 「用得好 AI 的那一拨人,画像是创过业、当过老板、当过 leader——他们更善于拆解任务和分配」 在所有人都「用 AI」的时代,差距来自把自己定位为「AI 调度师」而非「使用者」 42:47 把判断权拿回手里——人的能力上限是 AI 的下限 核心原则:「你一旦发现 AI 不好用,那一定不是 AI 的问题,那是你的问题」 医生说没救就一定没救吗?自己去查案例、判断概率、问「我能不能成为那个少数派?」 学习的本质不是吸收知识,是创造「思辨能力」 AI 的天花板在用户:「它没有身体经历过一次尿失禁、一次瘫痪、一次绝望——这些是 AI 永远无法替代的」 AI 时代的稀缺资源不是技术深度,是「跨学科架构能力」 + 「判断权」 AI 只能复现人类已有的智力,不能复制人的第一手经验——用 AI 的天花板取决于你自己经历过、消化过、能拆解清楚的认知厚度 Part 3. 意念轮椅夺冠,马斯克式的天才创新!49:34 脑机接口的真相——硬件不重要,数据解读体系才是 肥牛 2021 年瘫痪时就在论文里跟踪脑机研究——比马斯克植入第一个患者还早 柔性电极的类比:就是一块脑信号"硬盘"——大有大的好处、小有小的特点,本质是采集传感器 脑内 vs 脑外:脑内一手数据,脑外有屏蔽损耗,但没人能给出"脑外比脑内差多少"的精确百分比 "在学术体系里,他们都是在蒙的"——各家脑科学公司有自己的解读体系,1+1 在不同体系里可以等于 4 或 6 脑机的真正壁垒不是电极,是"谁先建成完整的语义系统" 学术体系想做的是"全语义解构"(把每个脑信号翻译成意念);产品工程师想做的是"在不解构的前提下让它有用"——两套完全不同的目标函数 57:29 天才级解法——抓两个数据包做差,绕开"翻译意念"的难题 不追求"精确翻译每一次意念",而是抓两个脑波数据包做差 A 数据包 - B 数据包 = 差异向量,把这个向量定义为指令 工程问题的马斯克式破局:与其翻译每个细节,不如重新定义"什么算可用"——从"科学家解构思维"切换到"产品工程师思维" 脑控的杀手级场景是"声控和动作识别都失效"的瞬间——情绪的微表情、看不见的兴奋、不便说话的环境——这些才是脑机接口的不可替代价值 Part 4. AI 、社区、创新浓度与长坡厚雪01:08:46 小红书黑客松现场——王座轮椅、夏大哥、年轻 vs 年长、生命力… 现场加了 100+ 微信,几千公里赶来的选手"天才级想法"扎堆 获奖后展示:希望未来轮椅用户"都坐在王座上" 「隔壁的夏大哥(嵌入式开发资深选手)凌晨 3-4 点还在帮忙搭小车」 评价社区氛围的标准:"让人感受好的个体是不是足够多" 创新的浓度比技术深度更重要——把人放在足够浓度的氛围里,原本不期待的事就会发生 年长开发者的稀缺价值是「穿透型筛选」 + 利他主义——他们筛选合作者的维度更立体(思维架构、解构能力、人品),而不是「会不会写代码」 01:18:13 Built by Public + Build in Public——AI 时代创新的两个特征 黑客松把上下游全聚集——媒体 + 投资人 + 同行 + 选手,是一个 match 工厂加完微信里有 20-30% 是投资人,剩下是技术顾问 + 媒体——"一般商业路演也不过如此" AI 时代创新范式的两个切换:- Built by Public——需求来自一个普适的、痛感强的小众群体- Build in Public——Day 1 demo 做出来就直接面对公众,用户反馈成为产品迭代的一部分 公众既是需求源、也是验证者、合伙人、放大器 平台的真正价值不是工具或流量,是"创新浓度的密度场" 01:26:18 make things happen,happen 的速度比以往任何一个时代都要快 01:28:14 这棵小树——爱与生命力、此刻就是最幸福 (诗婕觉得:)外人觉得是香菇更勇敢,其实是肥牛 高大的人格才能种出这棵小树 18 岁感受不到青春:"我们当时就会觉得啊这个时间好快乐呀" 痛苦和快乐共存的能力是「经历过生死」的觉知 祝大家节日快乐,收获爱与勇敢~✨ 加入听友群⬇️ 在小宇宙查看该单集文稿

    1h 31m
  5. May 18

    72.把宇树、ABB 等四家具身拉进小黑屋聊真心话:转型派 vs 新秀派,具身的现状、挑战与未来

    3月中,受到SAP思爱普的邀请,我在SAP全球运营峰会上主持了一场有关具身智能的圆桌论坛。 SAP是企业应用和商业AI方向的全球领导者,这家世界五百强公司的业务横跨190多个国家,在100多个地区拥有创新与研发中心,它的客户创造了全球84%的贸易。 这样一家巨型企业,在AI浪潮下,站得足够高,也成为了横向观察各行各业AI化转型的绝佳窗口。 简单来说,SAP深耕的数字化解决方案,与AI结合后,能够为企业打造一个业务感知型的AI底座——将数据、业务理解借由AI Agent 打通,成为AI落地企业所必备的商业大脑——而这样一个了解企业的大脑,还需要一个具身的本体,才能够真正将数字世界的智能,影响至物理世界,为制造业创造更多实际的价值。 因此,具身智能,就成为了这家数字化企业赋能全产业的绝佳切口。 这其中,一个相当重要的问题是,每个企业都渴望拥抱AI,但,是否每一家企业都具备了直接拥抱的条件? 答案就藏在这场众星云集的具身圆桌中。 本期播客由两部分组成:第一部分是我主持的圆桌实录;第二部分,则是我将四家具身企业单独留下,录制的闭门访谈部分,预告一下,非常精彩。 本期嘉宾:Robin郑锡亮 - ABB(全球机器人四大家族之一),中国区软件及数字化负责人。 Ryan 王琪 - 拓斯达(国产工业机器人翘楚) ,具身智能业务线矩阵智拓CMO Peter 谢一鹏 - 宇树工业场景解决方案负责人 William王浩然 - 星动纪元,亚太地区和中东负责人 徐勐 - SAP大中华地区客户咨询团队总经理 南立新 - 创业邦创始人&CEO 本期 Shownotes:Part 1.圆桌实录:企业拥抱 AI 转型,真的都准备好了吗?08:12 机器人四大家族 ABB 的转型之路 11:11 工业翘楚拓斯达,全球化扩张背后 15:04 宇树与星动纪元:井喷的具身公司,差异化在哪? 20:05 SAP 给企业打造的 AI 接口与数字化底座,是什么? 22:39 企业级 AI 的需求:执行、开放、非绑定和安全 26:35 融资热到发烫:超520亿资金、超500起融资,但行业仍处于 POC 小批量验证阶段 29:04 刺激的快问快答:有关具身行业,最犀利的几个问题! Part 2. 闭门部分:把四家具身老板拉进小黑屋- 行业真正面对哪些真问题?40:19 什么是好场景?怎样真正击穿? 43:03 宇树要做 toB 了?来讲讲工业地图…… 宇树 2025 交付 6000 +台人形机器人,今年目标 2 - 3万台 49:24 新秀想超车?激烈竞争下,切入场景、优先级怎么选? 54:40 训练的指数级成本提升 & 规模上量背后的真实挑战 58:57 具身必将洗牌,行业寒冬马上到来? 01:08:17 工业必定走在家庭场景前面? 01:13:28 从机器人 50 年史,看人形机器人发展:具身仍在百家争鸣 工业机器人发展50年,中国每万名工人配500台,进度约30 - 40%,人形机器人刚起步 01:24:31 拓斯达掏箱底式分享:人形机器人应用,蓝海在哪? 01:26:40 具身机器人的大规模爆发,还有多远? 01:28:07 家用人性机器人爆发时间点预测:赌一瓶茅台 😄 01:33:00 什么是 AI 时代的底层应用的现代化? 加入听友群⬇️: 在小宇宙查看该单集文稿

    1h 36m
  6. Apr 24

    71.与小米陈龙的访谈:90后AI当家、车与机器人的智能,重建一个Physical AI的世界观

    过去三年,人们的目光聚焦在语言模型,但当下,物理AI正在被热议。这其中,VLA(Vision-Language-Action)和世界模型(World Model)这两个技术方向极具潜力又充满争议。 今天邀请到的嘉宾,是小米的具身基座大模型负责人陈龙。陈龙博士是90后,是全球最早将VLA与智能驾驶融合的顶尖科学家。加入小米后,他正试图将车与机器人打通,打造一种 AI 学习的新范式。 很喜欢这一期,其中既有大量硬核的信息量,也有技术的初心、烟火气和浪漫想象。 点一些核心的独家信息(普通人看完访谈也能理解): 1.第一视角还原小米智驾最前沿的一手信息:业界首个融合智能驾驶+机器人任务的Mimo Embodied具身大脑框架、XLA潜空间推理的技术细节… 2.还原了自动驾驶从“三段式➡️两段式➡️VLA➡️XLA”的完整路径,明确了智驾和具身的融合路线,1+1 大于 23.小米智驾梦之队+小米 90  后 AI 当家团队的工作日常(包括陈龙博士与罗福莉的合作等)4.关于 VLA、世界模型的路线之争,以及具身的 Scaling Law 时刻 (本期内容的视频版,欢迎前往微博、b站、小红书、视频号、Youtube等平台观看。) 本期嘉宾:陈龙(小米智驾负责人、具身基座大模型负责人)本期 Shownotes:02:00 CV是计算机与真实世界的接 05:36 训练神经网络,小规模的Scaling Law 06:19 自动驾驶的三阶段 09:56 从规则算法到数据学习 11:05 《苦涩的教训》 19:29 雷军亲自面试了我 22:14 LLM 加速了自动驾驶 24:15 从端到端,到 VLA,是认知的改变 27:47 伦敦生活 30:24 小米智驾梦之队 34:04 小米的90后 AI 当家们 46:05 世界模型与 VLA 51:14 打通机器人与车的智能,训练具身基座大模型 57:55 语言是最高效的吗? 01:00:47 从VLA,到XLA 01:14:00 具身的Scaling Law,与物理AI 01:25:19 智驾与具身的人才大战 加入听友群👇 在小宇宙查看该单集文稿

    1h 26m
  7. Apr 17

    70.杭州六小龙第一股,与群核黄晓煌的访谈:一家硬科技公司的15年进化史

    成立于2011年的群核科技在走过15个创业年头后,在4月17日于港交所成功上市了。 这是一个中国合伙人式的故事:三个联合创始人是美国伊利诺伊大学的校友,其中,董事长黄晓煌和CEO陈航,在浙大竺可桢学院时期就是本科时期的室友。 在 GPU 算力尚未被大众熟知的年代,三位创始人就凭借着对计算技术的热爱和执着,发现了 GPU 集群可以极大地加速物理渲染,因此打造出渲染引擎——一个拿着技术找应用、拿着锤子找钉子的典型创业范本。 我在去年8月份与黄晓煌进行了一场访谈。这个故事中,最打动我的,是回报,总是发生在那些不计结果的好奇心与热爱之后。 长达10年的时间,群核在最不性感、最难数字化的家装与房地产领域死磕十年,把每一个室内空间的物理参数、材质精准地搬进数字世界。最终打造出空间设计行业的SaaS工具「酷家乐」——但也正因为这样「扎实而沉闷」的积累,让他们在 AI 时代突然发现,自己坐拥了一座关于物理世界规律的「数据金矿」。 事实上,这家公司早从2021年起,就开始了从 SaaS 公司向 AI 公司转型的布局,比 ChatGPT 的爆发还要早一年多。今天,群核成为了具身机器人公司、以及许多训练多模态、世界模型大厂的重要数据提供商。数据之外,这家公司也正在开放底层空间智能能力,推动AI对物理世界的理解、推理和交互。 我们的访谈还原了一家创业15年的硬科技公司,多次转型的全过程。 (欢迎前往B站、微博、视频号等平台观看本次访谈的视频版~) 本期嘉宾: 黄晓煌(群核科技联合创始人 & 董事长)本期Shownotes:03:15 杭州六小龙,群核的主轴线,与它的 AI 转型「那个年代大家可能看不太懂我们」开源数据集 InteriorNet:埋下 AI 的种子「AI 好像是到了一个新的阶段了」「我的数据集居然真的有用!」认知的改变:数据越多效果越好,GPU集群要做大转型AI公司:不叫换血,叫升级流程式部队 vs 创新部队10:13 转型之痛:尽早选择同路人志同道合的一起往前,如果不是志同道合的,也别拖蹭热点不可耻,但要给社会创造价值不会有平白无故的热点,顺势而为对 SaaS 行业来说,按Token计费,是巨大的启示「你能长期坚持的东西,就不用怕别人怎么样」「老板怎么又开始蹭热点了? AI 跟你啥关系?」「眼角是有泪光吗?」「经历过好几波了,现在遇到类似的事情也心如止水」有员工跑进办公室表达不满,「我就倾听」21:14 变化本身,是硬科技企业的本质时代一直在变,什么是可以复用的?群核DNA:简单,专注,开放群核有利润,用利润在做研发25:11 空间智能:李飞飞喊出的概念,恰好诠释了群核在做的事2018 年埋下空间智能的线索:空间的理解、推理、生成、行动机器人与机器人之间,看到的世界是不一样的「如果 chatgpt 没有来的话,浪就没有来」「也许会有别的浪」GPU卖多卖少,是最难的决策GPU 的用量与需求量,怎么测算?「我们想给所有类型的机器人公司提供服务」大语言模型开启了一个新的大门:数据越多越智能物理 AI 的数据是更难获取的42:51 全球的世界模型潮:英伟达、谷歌、Meta、腾讯都在做的世界模型谷歌的Genie3更多是用视频切入,用三维做约束英伟达的Cosmos :9000 万亿TOKEN 的训练,来自 2000 万小时真人互动李飞飞的World Lab:接近于学术成果,实践性没那么强腾讯混元3D模型:游戏数据训练而来大家都关注空间一致性,要用三维数据做约束黄仁勋的物理AI,李飞飞的空间智能,Lecun提出的世界模型,三个概念有什么关联性和差异?52:01 如何构建空间智能?先有物理世界的约束,在此基础上产生大量带有物理世界参数跟约束的数据,再做训练我看到一个物理世界的东西。我能否通过AI模拟到数字世界工具、数据跟大模型缺一不可,是一个飞轮利用AI做一个存量数据集,是一个突破点所有具身企业和大脑公司都是群核的客户SpacialLM 开源后,登顶了 hugging face 的第三名01:09:39 群核火过好几次,经历过好几个周期人才是把产品做到最好的根基「有风口来,我赶紧招人」「当我们的技术能够用在所有行业,然后正好遇到一两个超级爆发的行业,就会上一个大的台阶」「经济进入一种非常亢奋期,当时要是再浪一点,公司可能就挂了」不要把子弹打光努力让应届生成为项目LeaderLife is tough, but we are tougher加入听友群👇 最后再放些小彩蛋哈哈🎉 在晓煌的办公室有一张照片,是一个小阁楼:群核创立之初,就是在联创陈航亲戚家的阁楼里办公的,他们说,公司很长时间招不到女员工,因为感觉他们像诈骗的hhh 在小宇宙查看该单集文稿

    1h 23m
  8. Apr 6

    69.与田渊栋的访谈:大模型的真问题、变局、AI洪水与the path not taken

    本期嘉宾是华人 AI 学者田渊栋。 这个名字在社交网络上被广泛讨论,始于四个月前,时任 Meta 研究总监的田渊栋,通过社交网络宣布,自己将被 Meta 裁员。华人顶尖 AI 科学家失业的新闻,瞬时传遍网络。 2026 年的第一天,田渊栋发布了一篇对于 2025 的年度总结,再次引发全网热议——这篇通俗但深刻的 AI 总结,令许多普通人也能从中获得对于 AI 焦虑的启发和助益。 但有关田渊栋的思考和经历,其实还有许多未尽的部分——他曾任职的Meta FAIR 实验室,是由图灵奖得主、深度学习三巨头之一的Yann LeCun,一手创建的,那里曾是一个倡导自由学术氛围的创新引擎,但如何被激进的大模型竞速赛所改变。未来,当 AI 需要进一步进展,需要行业有怎样的突破? 这期访谈中,我们聊到了许多有关当下大模型的真相与真问题。 除此之外,我还特别喜欢田老师对于学术品位的定义——在查阅他的论文时,我发现他的一些研究命名有来自于文学作品和诗歌的出处。他本人,也是科幻小说的创作者。这反驳了人们对于学术研究的刻板印象。 从技术延伸,一位学者的世界观呼之欲出,让人能够感受到科技之美。总之,这是一期很有力量的播客,非常推荐。不过,当天因为录制场地和录制时间都有限制,所以本期访谈的节奏依然很快。希望大家见谅~ (本期节目获微博开屏~欢迎前往微博等视频平台,观看完整版视频。) 本期嘉宾:田渊栋(华人AI科学家、前 Meta 人工智能实验室研究总监、科幻小说作家) 本期 Shownotes:一、关于田渊栋Part 1.  03:44 摆脱裁员羞耻:顶尖科学家被裁,离职就是向更广阔的天地进发~ 被裁始末:因绩效被裁可能只是大公司的话术,顶尖AI科学家也不例外CS 软件工程师的需求,未来会越来越少大公司可能是让能力与心气「脱钩」的笼子顶尖 AI 科学家、前大厂高管搞科研:靠的是家里一台4090显卡「每个人自己就是一个小闭环」Part 2. 09:55 中美 AI 的共性:焦虑 AI 的下一个方向是什么?2025 年 12 月- 2026年 1月:一个月的时间发生巨大变化Coding Agent 飞速发展背后,技术上的进展是什么?基模还在快速进展吗?基模成长的速度到底有没有放缓?Part 3. 14:43 谷歌教会我:系统大于个人 CMU 读博,这是一个正反馈的过程代码注释后,应该加几个空格?——不无聊,很震撼商业系统不靠微雕算法改进,而靠系统过滤问题Debug sucks, Testing works.二、大模型的真相Part 4. 19:19 关于 LeCun 一个很强的研究者,拥有极强的信仰那时深度学习领域十分萧索,Lecun 坐了多年冷板凳创立 Meta Fair ,他不想做管理,是一个精神领袖人类数据标注是非常辛苦的,最好的办法是让数据自己学习自己Part 5. 22:20 Llama:从爆红到落后 Llama 最初只是 FAIR 的一个尝试,最终成功了FAIR 是一个自下而上的组织「FAIR 擅长营造自由氛围,是吗?」「当时的 FAIR 是这样」大模型榨干了所有资源:一个方向爆火,扼杀了行业的多元创新Lecun 与 Alexander Wang:「You don' t tell researcher what to do , you certainly don' t tell researcher like me what to do.(不要命令研究员该如何做,尤其不要命令我这样的研究员该如何做)」模型如何能真的学懂东西?可以有更好的办法来学习Part 6.  29:49  年轻人 vs 老兵、「历史有轮回」、「坏消息是如何消失的」 一个浪潮不足以把我们送到 AGI老兵见证过思维方式的变迁Meta 全力追赶大模型的三年竞争让 Llama 团队变得比较急,有很多压力救火 Llama 4 带来的研究思路转变:不需要太多复杂调参,强化学习更重要的是稳定从 Llama 3 到Llama 4: 团队经历了几倍的扩充层层汇报偏离本质,幻觉会在模型发布的那一天戳破AI 变化越来越快,热点越来越多,技术人员才能透过本质有判断的能力谷歌被誉为管理学奇迹三、大模型的真问题Part 7.  44:42 田渊栋的十年研究之路 从教 AI 下棋,到教 AI 思考,再到探索 AI 的大脑回路逐渐形成一个长期的 Bet (押注)Streaming LLM:让上下文窗口无限长,影响力深远GaLore:训练时提升大模型的内存效率如何让模型的 Scaling Law 更有效率?隐空间推理:耗能更少,推理效果更好和 ChatGPT5 合作:一个月完成了原本需要半年时间的论文我们会迎来研究加速时代Part 8. 54:04 如何提升大模型效率? AI 应该像人一样,能遗忘,也能召回一段记忆AI为什么能学懂东西?本质靠数据本身的结构与关联性符号表示 vs 神经表示:前者基于严格推理,后者更像是一种直觉「 你可以说它(AI)是遗忘,但是它可能也从来没懂过」过去都是人类定义的符号,以后会有 AI 定义的符号Part 9. 01:06:59关于 Research taste: 「我很高兴这个名字被你挑出来」the path not taken:科研品味是走你自己想走的路这世界是非常复杂的,一个人必须要有信念,有能bet on 的东西,这个 bet on 构成了人之价值所在科研的目的和最后的影响力,其实不是一个东西,这个很有意思的Part 10. 趋势预测:大模型的 next station 近 300 万亿的 TOKEN 被喂进大语言模型之后,怎么评估这场声势浩大的实验我不认为 2026 的 AI 行业会回调大模型领域的真问题:效率、持续学习、自进化、数据…AI 时代的第谷与开普勒已经出现,但牛顿还没出现Part 11. 01:18:55 AI 发展与人类处境:「遍地神灯,愿望才稀缺」 人类拼命灌水,等待 AI 的洪流有一天淹没自己?人类社会的费米能级,就是「AI 洪水的水位线」人 + AI > 人(or AI)本身Research is product: 研究与产品的距离越来越近了遍地神灯的时代,愿望会是最稀缺的我写科幻小说:如果人类不再站在舞台中心,而成为旁观者呢?加入听友群👇: 在小宇宙查看该单集文稿

    1h 28m

About

更有生命力的科技商业访谈。 Explore better tech reading. Hello~如果是新朋友,推荐几期具代表性的必听节目:1.感受创始人访谈的魅力——第40期(影石JK)、第51期(Plaud许高)、第34期(fellou谢扬);2.感受商业和良知的魅力——第24期医改与集采(必听)、第28期英伟达、第25期聊回购。相信听完这几期,会对这档节目的定位——做最有生命力的科技商业访谈——有更具象的认知。(公众号、各平台视频账号同名) 我是诗婕,做过社会调查、特稿记者、科技媒体主编。关注科技商业进步与公共利益~我会把自己持续学习的过程开源给大家,在这里也能学习AI、具身智能、全球化等前沿领域。在这里,点亮科技星空。 希望一起描绘、定义、推动一个更美好的世界。:) ———— 关于诗婕:虎嗅2024年度作者、金字节奖年度新锐作者、网易非虚构文学奖年度作者、全球真实故事奖TSA(True Story Award)。 合作洽谈 👉 微信:SJ_Jelyne(添加请备注身份+事由) 听友读者互动,欢迎加入听友群(每期节目简介会更新群二维码)

You Might Also Like