脑放电波

托马斯白

脑放电波是一档关注具身智能、AI硬科技和生物骇客的谈话类节目。每期带给您一个有趣有据的话题,帮您在信息严重过载的现代世界小幅自我迭代。 欢迎加小助手微信(微信号:BrainAMP01)进听友群参与话题讨论。 主理人: 托马斯白,17+年科技行业从业者,前 XR 创业公司 CMO,科技媒体特约作者(微信Alanneo) Nixon Hu:大厂产品经理、前机器人产品经理、科技媒体记者 (微信hxk2312)

  1. 4日前

    把我的74G基因数据塞进Mac,加上10年健康数据,AI发现了什么?-对谈生物骇客段誉-Vol 101

    曾经基因测序和分析,普通人只能浅尝辄止,但今天你靠电脑就可以解读在99% 相同的基因背后,你和他人的区别是什么?AI 能从30 亿个基因碱基对中分辨这些。同样,你也可以上传十年的体检数据和手表数据,结合你的日历与照片,这里面包含了更多信号:哪些信号代表疲惫?体检中持续报警的指标,是不是和遗传有关? 段誉往 Mac mini 上摞了两个风扇,三天三夜没关。74 个 GB 的 FASTQ 文件从华大服务器上拖下来,Claude 做的 planning,Codex 跑执行——比对、投票、压缩成 172 兆、461 万处跟标准基因组不一样的点位。一个人的基因数据,全部本地化。 觉得这事太硬核对吧?Nixon 那半边门槛低得多。Apple Watch 的数据用 50 块钱的第三方 APP 导出,加飞书日历,加一个叫 Looki 的 AI 相机——全部丢给 agent。一小时出报告。深度睡眠四年翻了三倍、喝啤酒第二天静息心率涨 13%、主持的会身体轻松,参加的会越听越累——全是数据告诉你的。 本期嘉宾段誉,运动健康领域投资人、生物骇客、脑放电波老朋友。这是他第四次上节目,每次身份都不一样。跟他聊了整整一个小时——从厨房里的纳米孔测序仪,到你手表的 100 多项数据怎么用 AI 一次全解读。 00:26 74GB 基因数据,怎么从测序到本地的 只要愿意放弃隐私,就有更多 insight。——段誉 起点是一个瑞典老哥在自家厨房用纳米孔测序仪(三代长读数)完成全基因组测序,再用 Mac mini 本地分析。段誉被震撼了,但他的厨房放不下那台几万美金的仪器。他问 Claude 有没有替代方案——国内华大 WGS(全基因组测序)官方价 6999,1 万以内搞定。 跟 23andMe 那种「基因卡」(300 元查两三百个网红点位)完全不同。WGS 是 30 亿个碱基对全测,同一个点位测 46 次再投票。吐 4-5 口唾液寄走,10 天出报告。华大给的报告 300 多页——重点是药物敏感性,几百种药的代谢能力一目了然。 段誉要的不是报告,是原始数据。「以后人类对基因有任何新认知,我自己跑一下就行。」华大客服口头答应给 FASTA 文件,然后就没下文了。他让 Claude 写了封维权邮件,抄送投资者关系部和董秘——第二天 QQ 邮箱收到下载链接。74GB 一个文件,传了两三个小时。 07:42 为什么要原始数据?因为今天不懂的,明天可能懂 Claude 先做 planning——列出七八步流程、每步耗时、把重的任务放晚上跑、交互的留早上问。生成的 sh 文件甩给 Codex,Mac mini 加两个风扇连跑三天。从 FASTQ 碎片→比对标准基因组→40 多次投票纠错→压缩成 172MB 的 VCF 文件——461 万处变异。「这个 172 兆的文件,就是我之所以是我。」 接下来最重要的一步:用 dbNSFP 词典做注释。这本词典 47GB——全球科学家把已知的基因变异解读汇总在一起,相当于「基因界的维基百科」。拿自己 172 兆的数据去比对 47GB 的词典,十几分钟出结果。段誉还跑了一个更前沿的工具——AlphaGenome,专门预测非编码区(占 90% 的不翻译成蛋白质的部分)的变异含义。 他把分析结果做了个网站——geneduanzhang.com,大家都能上去看(当然只放了不敏感的部分)。「这是我个人隐私最底层的让度。」Thomas:「我觉得你这是对个人隐私最底层的让度啊。」 16:30 先天的基线——为什么你健身那么猛还有脂肪肝 AlphaGenome 跑完后排名第一的发现:胰腺表达变异程度最高。段誉确实糖耐受有受损。脂肪肝的高风险基因位点——他是高风险纯合,也确实有轻度脂肪肝。但这个人一周三次 HIIT 还能完赛。Nixon 去年调了下饮食,脂肪肝就没了——「我和段誉在脂肪肝这件事上的基线显然不一样。」 酒精相关基因也被翻出来:乙醛脱氢酶代谢能力强、酒精成瘾基因表达也高——所以他爱精酿。反过来,戴了四五年的 WHOOP 数据每一次都印证:喝完第二天 HRV 全红。「基因让你爱喝,数据告诉你喝完身体是真扛不住。三个不同维度。」 Thomas 的总结:「很多健康指标都有一个 range,为什么有人 16 有人 32?可能就是基因表达决定基线。后天做到极致了,先天就是那个变量。你用一个看起来不健康的糖耐指标,用健康的生活方式——也许这个指标对你就是健康的。」 28:52 Apple Watch 里藏着 100 多项数据,从来没被一起解读过 Nixon 让 DeepSeek 写了个 iPhone 快捷方式自动导出健康数据——折腾一晚上没跑通,原因是 iOS 快捷方式的版本兼容性和文件大小限制太坑。后来在美区 App Store 搜「export health」——一堆 APP 干这个事。选了一款能导出 100 多项数据还支持自动同步到 iCloud 的。 从 2021 年开始戴 Apple Watch,所有数据——加 2017 年至今的体检报告——全喂给 agent。三个发现。第一,胆固醇连年高,今年颈动脉斑块第一次出现。agent 的判断:「你一年 150 次运动的习惯非常好,但血脂一直高水位——遗传因素。」直接建议吃他汀。第二,最大摄氧量跟年度运动次数完美对应——2022 年骑自行车通勤,371 次运动,代谢指标全线最佳。第三,深度睡眠四年翻三倍:从十几二十分钟涨到一小时——床品升级加控卧室温度,数据给了正反馈。 最有意思的部分:他搭了一条自动化链路。健康数据每隔 5 小时自动同步到 iCloud→Mac 上的 agent 定时读取→同时读飞书日历(知道今天什么会)→加上 Looki AI 相机的行为标签(见了谁、吃了什么、玩了多久手机)。每天出报告。 37:57 啤酒实验——数据把你原来「好像不太对」变成确凿的证据 有天中午 Nixon 特别想喝啤酒,提前在日历上写了「煎牛肉配啤酒」。agent 读完全部数据后告诉他:前一天中午喝的酒→当晚睡眠清醒次数多了三四次→第二天静息心率升高、HRV 降低→典型的恢复日。就这一个数据点,把「我可能酒精代谢不太好」的模糊感觉锤成了事实。 会议的生理信号更微妙。agent 自己发现了规律:周会、进展会在身体上就是加压的——静息心率高两下,HRV 低一点。讨论会、脑暴会就轻松。「可能跟职业阶段有关——周会你不知道哪一秒 cue 到你,整个人不能完全走神也不能完全投入。」 他给了 agent 四个疲劳信号——喝可乐、喝咖啡、吃零食、长时间刷短视频。agent 回溯数据后锁定两次触发:一次是深夜航班落地后的第二天,一次是失眠那晚之后。「你的预测是正确的。咖啡、零食、长时间坐着玩手机——跟疲劳信号显著相关。」 46:35 血糖仪——力量训练时别喝宝矿力 段誉戴着 CGM(连续血糖监测仪)做力量训练,边练边喝宝矿力水特——手机开始震动报警。一看,血糖飙到 11.2。事后 agent 的分析:力量训练时肾上腺素本来就会推高血糖,宝矿力里除了电解质还有游离葡萄糖——两边一夹击,尖峰直冲。「现在只喝红牛或者外星人那种不含糖的,就只到 9 点多。」 「这就是之前没意识到的习惯,数据帮你修正。」Thomas 延伸:血糖波动不只是吃的问题。做 heavy 运动血糖升、紧张开会血糖也升。传统的血糖监测只管吃,但 AI 能把行为数据和生物数据放在一起看——你喝的这瓶运动饮料,是在什么运动状态下喝完的? 50:02 手搓一个个人健康数据库——目前缺的是什么 Thomas 复盘了 Nixon 这套 DIY 链路后总结:输入端和输出端都有障碍。输入——苹果生态的墙太厚,快捷方式文件大小受限、后台刷新默认关闭、100 多项数据每项要点四五下才能导出。输出——没有一家商业公司把 Apple Watch、血糖仪、行为数据合在一起做综合解释。 段誉的观察更尖锐。大家抢输入设备(手表、CGM、眼镜)、抢存储平台——但输出端才是真正的用户心智入口。他举了 WHOOP 的例子:「每周日早上弹一个 Weekly Report——哪些指标加分了、减分了,为什么衰老了零点几——给了我一个强烈的延迟满足。这是比实时数据更强的仪式感。以后谁要抢这个输出位,我愿意把 CGM 的数据给它。」 「大部分厂商只相信自己采集的数据,不做跨设备整合。但今天聊下来——打包一块看,给一个周度总结,这才是真正重要的。」 58:36 数据的情绪价值——量化让模糊的"不太得劲"变成可行动的证据 Nixon 的收尾回到体感:「我 10 年勤奋锻炼把静息心率降了 13%。一喝酒,涨回来了。这个冲击远大于任何科普文章。」数据把人原来「似有似无」的感觉变成真实的量化的东西——甚至跟你的开会习惯、你的代偿行为都有关系。 Thomas 补了谨慎的那面:「也有人在血糖仪上反而更焦虑了——本来吃点东西开开心心,看了数值啥也不敢吃了。不是所有人都适合做生物骇客。但如果你喜欢量化、喜欢验证和匹配——那这东西的价值是巨大的。」 段誉在节目最后透露:会把分析工具上传到 GitHub,做成一键运行的 skill。「大家测完序之后,一键完成分析。」工具链接和段誉的基因报告网站地址会放进 show notes。 人物: 段誉 - 生物骇客,Hyrox 和 Crossfit等运动爱好者,曾经在顺为、CPE、Xbotpark 投资多家硬科技、健康科技公司 托马斯白 - “脑放电波”主

    1時間3分
  2. 6月10日

    WWDC26:苹果真的“不酷”了?剖析端侧 AI 的隐藏野心-Vol 100特别节目

    苹果在端侧塞进了一个 20B 的模型,但今天手机端跑的模型,行业主流尺寸是 7B——苹果直接把门槛拉到了三倍。 苹果的技术功力还是在线的。200 亿参数的 MOE 架构,跑在 12GB 内存的 iPhone 17 Pro 上,靠一套把权重塞进闪存的调度机制撑着。但翻到发布会的另一面,事情就没那么提气了:这 5 个 AI 模型是跟谷歌合作训练的,最强的云端模型直接扔到了谷歌云和英伟达 GPU 上,跟自家 Apple Silicon 没啥关系。苹果第一次在自己最重要的开发者大会上公开说"跟 Google 合作"——这句话本身就说明问题了。 我们蹲了四年 WWDC,看着苹果 AI 从 2024 年画英雄 Demo、到 2025 年内斗跳票市值蒸发 750 亿、再到今年总算交卷。填坑是填上了,但那个曾经"自己定义一切"的苹果,跑去借别人家的算力和模型来交付,确实不酷了。而在中国市场,Siri AI 连门都进不来的时候,微信 Agent 已经拉着华米 OV 耀搞起了 A2A 内测,小红书上了 Skill,连瑞幸都有了让 AI 帮你点咖啡的技能。 这期也是脑放电波第 100 期,大概率是库克以 CEO 身份的最后一场 WWDC。我们还跟一位诺基亚老兵聊了聊——2008 年 E71 卖爆 8000 万台的时候,诺基亚内部觉得 iPhone 是很好,但那又怎样呢。这段故事,值得听完。 01:45 三年回顾:从"定义品类"到"用谷歌的芯片交付" 大家可以想象吗?2024 年在开发者大会上承诺的非常多的功能,实际上直到今天才号称要交付,因为它现在还是个 Beta 版本。 2024 年 Apple Intelligence 首秀,连名字都是谐音梗。我们的判断:苹果难得的不自信时刻,从 leader 变成了 follower。三行代码接入 AI 的承诺够狠,但 Siri 跨应用操作、Personal Context 全是期货。 那场发布会配套的广告片一年后悄悄下架——播片里演的场景,直到今天都没实现。 2025 年注意力被液态玻璃和 AI 团队内斗瓜分。24 年的东西没做出来,内部又爆出高管换血。核心能力一个没交,全场无硬件发布,市值当场蒸发 750 亿。 叙事三连跳:2024「我们在定义品类」→ 2025「我们在追赶、内部一团乱」→ 2026「我们在交付,用的是谷歌的芯片和模型」。 07:45 Siri AI 今年到底能做什么? 豆包手机以读屏幕的方式模拟点击,引起了巨大的隐私争议,在很多主流 APP 里被禁掉了。 Siri 成了独立 APP,有了历史记录入口。Personal Context 跳票两年后落地:能从旧邮件翻酒店确认号、定位朋友提过的新家地址。 On-Screen Awareness 走跟豆包相反的路:不模拟点击,数据由开发者主动交付,绕开隐私雷区。Keynote demo 演示了海滩照片→识别地点→找到朋友新家→规划导航的完整链路,但仍是"一步步 prompt"而非两年前承诺的"一句话搞定"。 相机 Siri 模式:拍账单直接 Apple Cash AA 分账,拍食物识别卡路里——针对场景单独做了 UI,不是通用视觉。 Spatial Reframe 是真端侧活:手指一划转脸角度,遮挡处实时生成补齐,这期现场媒体反响最好的功能。 Safari 新增"用嘴写爬虫":让 Siri 监控网页变化(降价、可购票),变化时推通知。Describe Extension 用自然语言描述自定义插件。 18:00 AFM 3 模型家族:苹果不装了 你的模型本来就是跟谷歌合作的,英伟达训练的,还不如把最强模型原生放在最适合推理的土壤上。 五个 Foundation Model 一次摊开——端侧两个,云侧三个。20B 的 AFM 3 Core Advance 是全场重头:MOE 架构、每次只激活 1B-4B,权重塞进闪存、靠专利调度跑在端侧——端侧最大模型尺寸是行业常见 7B 的近三倍。 最强的 AFM 3 Cloud Pro 不再跑自家 PCC。私有云计算被"扩展"到了 Google Cloud 和英伟达 GPU。隐私承诺没变,信任链条变了。 产业链拼盘:英伟达 GPU + 英特尔 CPU + 谷歌泰坦 + Apple Silicon。跑分只跟自己去年的 8.7% 比,涨到 64.7%——不敢跟市面上任何模型做横评。 Core AI 框架列出开源模型清单:Whisper、Stable Diffusion、千问全家桶(0.6B 到 30B Coder)、GPT-OSS、Gemma——清一色第三方。现场 Demo 把 Meta SAM3 切割 + 千问识别串成一个外语学习卡片 APP,演示"端侧用小模型组合替代单一大模型"。 27:00 开发者工具链:苹果最被低估的部分 建议大家用模型的组合,而不是单一的大模型。 Dynamic Profiles:同一会话里模型悄悄切换,多模态↔单模态、创意模型↔严谨模型,对用户完全无感。 模型可抽出来公用存储,开发者不用把一两个 G 的模型包打进 APP。 PCC 对下载量 200 万以内的 APP 免费,成本按 iCloud 等级给额度——中小开发者不用管密钥和 token 成本。Foundation Model Framework 服务器版本夏天开源,手机和服务器跑同一套框架。 App Intents 2.0 新增视图标注 API,让开发者把界面元素主动交给 Siri 调度,这是跨应用操作的底层基础。 34:45 iOS 27 三级分层:你的 Pro 不够 Pro 内存大,以前是多开 App 不杀后台,现在是你的 Siri 比你朋友的聪明。 满血端侧大模型仅限 iPhone 17 Pro / Pro Max / Air(12GB)。15 Pro 及以上跑基础 AI。11-15 Plus 能升系统但没有 Apple Intelligence。 12GB 那道墙:闪存调度吃带宽,8GB 的 16 Pro / Pro Max 跑不动。 App 加载速度提升 70%,背后是在还液态玻璃的性能债。这也是 iPhone 11 能升 iOS 27 的原因。 未成年人模式首次上台:按品类设时长、AI 拦截暴力瑟琴内容直接不给看、加好友要家长确认——做法像小天才手表。毛玻璃灰度和透明度支持调节。国行独享节假日闹钟,被全网嘲讽为"史诗级更新"。 40:30 苹果为什么不酷了?微信、小红书正在拆围墙 真正每天跑 Tokens、用 Agent 跑 Claude Code 的,仍然是这颗星球上最小的一拨人。 Nixon 的暴论:科技用户追的是「超越感」——被技术 empower 后超越昨天的自己。苹果这套精致规整的东西给不了。Vision Pro 是最后一次让人觉得苹果站在科技巅峰。 苹果基本盘用户连手机 50% 功能都没用完,AI 对他们来说可能只是新闻标题。换一个 ID、把基础体验打磨好,iPhone 17 照样卖爆全球——但不酷了就是不酷了。 微信正和华为、荣耀、小米、OPPO、vivo 内测 A2A,右滑唤出 Agent 直接操作小程序,美团率先接入。微信甚至允许开发者一键授权,GUI Agent 自动改造小程序。 小红书上线 Skill,瑞幸做了让 AI 点咖啡的 Skill——小红书正在变成一个新的应用商店。Replit 三月下架、五月有条件解禁,暴露了苹果对 AI 编程的"半推半就"。当应用能被 AI 动态生成、分发不再过 App Store,苹果过去十年靠服务费撑起的增长引擎根基被动摇。 45:30 诺基亚的影子,与库克的最后一舞 哦,iPhone 是很好,但是又怎样呢?我的产品卖爆了。 Thomas 跟一位完整经历诺基亚衰落的手机老兵吃了顿饭。2008 年 E71 系列卖了 8000 多万台,远超 iPhone 第一代的 100 万——延长线上的领先,让他们忽略了正在失去的优势。 苹果不完全一样:绑定了数十亿用户、不固步自封、跟谷歌英伟达开放合作、iPhone 17 照样卖爆。但那一丝隐忧确实出现了。2008 年苹果自己也在纠结要不要给 iPhone 做 App Store,乔布斯说"Developer, we love you"的时候台下没一个人鼓掌——历史不重复,但押韵。 Tim Cook:2011 年 10 月 4 日首次以 CEO 主持发布会,讲 iPhone 4S。第二天乔布斯在病床前看完直播后离世。此后 48 场发布会,从绝对主角逐渐把戏份交给同事。大概率这是他的最后一舞。本期也是脑放电波第 100 期。 人物: 托马斯白 - “脑放电波”主播,消费电子营销人,科技媒体特约作者 Nixon - ”脑放电波“主播,硬件产品经理,前媒体记者 剪辑制作:Jeff 欢迎订阅脑放电波,2024/25苹果播客周度推荐节目、小宇宙累计13次编辑推荐单集、2024CPA播客中文奖年度科技数码类播客 欢迎在评论区留言发表你对 WWDC、Siri、iPhone 等话题 的感受与看法 对于节目话题的更多观点,获取更多未呈现在节目中的扩展阅读,欢迎添加脑放电波小助手微信(BrainAMP01),附言“WWDC”,加群参与讨论,后续会发布本期节目的文字稿 节目中用到的音乐:来自monkeyman535的90's Rock Style,地址freesound.org;来自kjartan_abel的Berlin Town,地址freesound.org;基于 CC BY 4.0 DEED 使用。 脑放电波往期节目精选(搜索关键词可收听) 具身智能:灵巧手 / 消费机器人浪潮 / 戴森与追觅 / 大疆扫地机 / 宇树机器人 AI 造物:3D打印机 / 3D打印的"iPhone时刻" / 3D扫描、生成与打印 / AI玩具和国产芯片 AI 应用:闪念贝壳 汽车聚变、泛科技生活:SU7营销复盘 / 3D打印 / 孵化大疆 饮食健康、现代病人:AI助推造神 / 生物骇客 / AI 内容真假难辨 / 控糖革命 / 信息过载 / 长寿革命 / 阿斯巴甜致癌疑云 苹果特权:腕上革命 / 设计哲学 / 苹果供应链迷思 / 苹果广告底层逻辑 / iPhone 15 和它的前任们 / 苹果零售店 AI 相关节目:人机交互的与“iPhone 时刻” / 会喘气的AI语音里藏着下一代交互范式 / 解构Apple Intelligence / 和李楠聊AI硬件 / 611款 AI 生产力工具; 脑放电波是一档关注科技前沿、品牌营销和个人成长的谈话类节目。每期带给您一个有趣有据的话题,帮您在信息严重过载的现代世界小幅自我迭代。您

    1時間
  3. 6月7日

    高考是闭卷,但具身智能行业可以开卷-和机器人“国家队”教练何旭国聊硬科技人才观-Vol99

    本期节目受小宇宙高考特别企划邀请,欢迎大家点击👉给普通小孩的志愿填报指南👈,收听更多企划内容。 三位"学错专业"的硬科技从业者坐下来,给正在填志愿的家长和考生录了一期实话节目。 本期受小宇宙"给普通小孩的志愿填报指南"特别企划邀请。嘉宾何旭国还有一个身份:前中国高中生机器人国家队冠军教练,过去十年带过的学生里,有人进了 OpenAI 负责 Image 2,有人在英伟达实习,有人 25 岁 PhD 毕业拿绿卡回国当老师。他从招聘的第一线讲起,拆解了一个只有两年历史的行业到底看重什么、不看什么。 火箭发动机专业的 Nixon、被调剂到飞行器设计的托马斯白、北京建筑大学机电一体化出身的何旭国——三个人里没有一个当年是冲着"具身智能"这四个字去选专业的。十几年后,一个做过机器人产品经理,一个干了硬科技营销,还有一个成了具身智能创业公司深度机智的联合创始人兼总设计师。 GPA 不看,研究生和本科没区别,一段 RoboMaster 经历比一张 985 文凭管用;学机械的应届薪资跟程序员的差距从 30% 缩到了 10%;具身智能连 GPT-1 时刻都还没到,但 1400 万毕业生将在 20 年后面对只剩一半的劳动力。 欢迎点进企划链接,收听更多角度的志愿建议。 00:51 火箭、飞行器、盖房子:三个"学错专业"的人怎么都进了硬科技 你周末可以选择去打球,可以选择去看电影,可以选择去约会,而我选择了去教学生——就是一个爱好。 Nixon 看到《科学美国人》封面写着"民用航天元年"就报了火箭发动机,念完发现自己不是特别适合这个专业 托马斯白被调剂进飞行器设计,大学才发现真正感兴趣的是电脑,毕业进了 DIY 大厂,一路做到硬科技产品营销 何旭国高考失利掉到最后一个保底志愿,父母在建筑行业觉得"好找工作",他却对盖房子没兴趣;大二进美资工业软件公司实习,把 FIRST 机器人比赛引入中国,从 2010 年延续至今 三个人选专业时,"具身智能"这个词还要两年后才出现 11:23 招人不看 GPA,看你在不在 RoboMaster 赛队里 学校是一方面,GPA 基本上不看,研究生跟本科在我这里都没有区别。如果你参加过 RoboMaster、RoboCup、RoboCon,绝对是妥妥的加分项。 普通学校的机器人社团,就是这个范围里精英最聚集的地方——和斯坦福、MIT 聚集精英是同一个逻辑,区别只在概率 到国家级赛事,每天 6 小时、连续半年。这种投入极可能拖垮保研 GPA,但创业公司要的恰恰是这种人 大厂看学历和智商、愿意从零培养你;创业公司里,你对行业的激情和热爱比出身、比绩点更重要 考试是闭卷——你总不能打开 GPT;工程是开卷——GPT、Claude、Gemini 全打开,不叫作弊,因为这就是工程 18:07 大一拦下老师、三小时让机器人动起来:AI 重写了学习的顺序 400 人的阶梯教室,讲完就散了。我是唯一一个把他拦住的人。 何旭国大一拦住来宣讲挑战杯的老师,倒三趟公交、翘一天课赶到另一个校区找他——就这么进了实验室,从打杂开始,连 CAD 都不会,全靠自学 过去学硬件要先懂电机、电控、信号、语言、IDE,让机器人动起来以周甚至月为单位;现在的逻辑是给你代码、打开 GPT 和 Cursor,三小时先让它动起来,动起来再去补短板 AI 等于给每个人配了一个 24 小时在线、永远有耐心、毫无保留的老师,历史上从未有过 但门槛降低的同时差距被拉大,越会用的人呈指数成长。你说"帮我拍个好电影"很虚,能说清分镜、滤镜、运镜,AI 才会变成真正的放大器 24:46 天赋没那么重要,正反馈可以在大学里"构建"出来 不要一听"找到自己的热爱"就觉得很难,好像非得神农尝百草,把 100 件事都试过才行。 除了体育竞技这种有明确 scores 的领域,大部分行业对天赋没那么苛刻 做一件事得到及时正反馈,热情变高、更愿意投入、再获得更好反馈,优势逐渐变大,爱好就变成了长板 与其纠结哪个专业离具身智能最近,不如换个思路:哪个学校和专业的氛围,让你最容易构建正反馈 很多中游学校的机器人战队常年在 RoboMaster、RoboCup 霸榜,看比赛获奖名单反推学校,比看排名更实在 30:04 企查查找到老板电话、拉来五万赞助:机器人战队其实是家小公司 我不认为我的员工能在网上找到我的联系方式,还说服我完成一件事。而你的学生做到了。 带中国队出国比赛,一个女生提议穿国风,盯上淘宝国风排名第一的碧海潮生——一件背心 499,全队置装要五六万 两天后品牌老板打来电话:"经费赞助很难,但你们的衣服我包了。"怕快递来不及,派员工坐高铁把衣服送到北京南站 这个女生把企查查都注册了就为找到老板电话,准备 PPT 和 BP,从自我介绍开始拨通那通电话——这不是画图、焊板子,是社会人要的"把事办成" 另一个文静女生,半年里跟超过 60 个国家的队伍开线上会、手绘小徽章;后来鼓起勇气说想学编程,自学 10 个月,把自动程序做到中国 TOP3 把技术语言翻译成商业市场认可的语言、把 PPT 写明白、把经费搞到手——这些能力从你开始管一个战队那天就在练了 48:09 学机械薪资追上程序员了,但具身智能连 GPT-1 时刻都没到 十年前同济校招,英伟达那个教室没什么人,土木建筑学院被挤爆。 5 年前计算机是应届薪资第一、机械制造排第二十,两者薪资差曾有 30%;今年机械跑进前五,差距缩到 10% "21 世纪是生物的世纪"曾让生物工程分数暴涨,十几年后才兑现。具身智能 4 年后泡沫刚好破裂的可能性同样存在,互联网在 2000 年也破过一次 目前最酷的真机 demo 来自 generalist AI;而 Figure 最新视频被扒出两组镜头里机器人在同一位置做了像素级一致的动作 这和春晚宇树翻跟头没本质区别:编排好的叫"自动",进入陌生房间、听指令把水瓶扔进垃圾桶才叫"自主"。连 GPT-1 时刻都没到,谈交付是忽悠 57:39 三家新型博士生院、深圳的洗手间空调、和一个初三小孩 我融资干什么?把我送出国的学生再招回来。已经有伯克利的学生加入我的团队了。 GPT-4 发布后中美 AI 人才联合培养通道被逐步切断,原本要出国那批人留下来卷保研。24 年国家同时设立三家新型博士生院:北京中关村学院、上海创智学院、深圳核桃学院 中关村学院用"创业成果"替代"论文数量"评价博士,深度机智就是它孵化的第一家公司,创始人是学院具身学部主任 深圳大学资源在四个人才高地里最弱,但就业机会极强;深职院(已升本)曾是全国最强大专,前华为通信架构师在这里教书,一家机器人公司 1/3 的优秀工程师来自这里 一个初三学生刚在小红书黑客松拿单项奖,被地瓜、Insta360、松灵机器人三家抢着要实习,家长却在焦虑他能不能上好高中——这么小就有一份热爱,他以后会过得很好 1400 万本科毕业生,20 年后只剩 700 万新生儿。机器人不是风口,是人口危机的解药 人物: 何旭国 - 深度机智 总设计师&联合创始人,在大学时将 FIRST 机器人竞赛引入中国并且担任多所优秀中学、国家队教练 托马斯白 - “脑放电波”主播,消费电子营销人,科技媒体特约作者 Nixon - ”脑放电波“主播,硬件产品经理,前媒体记者 剪辑制作:Jeff 欢迎订阅脑放电波,2024/25苹果播客周度推荐节目、小宇宙累计13次编辑推荐单集、2024CPA播客中文奖年度科技数码类播客 欢迎在评论区留言发表你对 具身智能、高考志愿 等话题 的感受与看法 对于节目话题的更多观点,获取更多未呈现在节目中的扩展阅读,欢迎添加脑放电波小助手微信(BrainAMP01),附言“具身智能”,加群参与讨论,后续会发布本期节目的文字稿 节目中用到的音乐:来自monkeyman535的90's Rock Style,地址freesound.org;来自kjartan_abel的Berlin Town,地址freesound.org;基于 CC BY 4.0 DEED 使用。 脑放电波往期节目精选(搜索关键词可收听) 具身智能:灵巧手 / 消费机器人浪潮 / 戴森与追觅 / 大疆扫地机 / 宇树机器人 AI 造物:3D打印机 / 3D打印的"iPhone时刻" / 3D扫描、生成与打印 / AI玩具和国产芯片 AI 应用:闪念贝壳 汽车聚变、泛科技生活:SU7营销复盘 / 3D打印 / 孵化大疆 饮食健康、现代病人:AI助推造神 / 生物骇客 / AI 内容真假难辨 / 控糖革命 / 信息过载 / 长寿革命 / 阿斯巴甜致癌疑云 苹果特权:腕上革命 / 设计哲学 / 苹果供应链迷思 / 苹果广告底层逻辑 / iPhone 15 和它的前任们 / 苹果零售店 AI 相关节目:人机交互的与“iPhone 时刻” / 会喘气的AI语音里藏着下一代交互范式 / 解构Apple Intelligence / 和李楠聊AI硬件 / 611款 AI 生产力工具; 脑放电波是一档关注科技前沿、品牌营销和个人成长的谈话类节目。每期带给您一个有趣有据的话题,帮您在信息严重过载的现代世界小幅自我迭代。您可以在小宇宙、苹果播客或者其他泛用型播客客户端搜索“脑放电波”找到并关注我们,如果您对本期节目有任何疑问,欢迎您给我们留言,如果您觉得这期内容对你有所帮助,欢迎您关注点赞收

    1時間8分
  4. 6月1日

    AI真的在“蒸馏”人类吗?硅谷裁员潮,被“克隆”的主播,教皇的焦虑-Vol98

    同事离职了,公司内网还能回消息——「我是他的 AI 代理」。Meta 往员工电脑里装监控,一周后裁了 8000 人。美国大学毕业典礼上,CEO 一提 AI 就被嘘。罗马教皇发了上任后第一部通谕,4.2 万字,只聊 AI。四条新闻叠在一起,够让人相信 AI 已经在把人类丢进蒸馏瓶了。主播把每条新闻拆开来看,再去他们自己差点签了 10 万块声音授权协议的经历里走了一趟。结论摆在那里:AI 蒸馏人类到底有没有发生?发生了,但根本不以媒体渲染的那种方式。 00:00 蒸馏到底是什么——先把神秘还原成制造业常识 你好像成了那只大闸蟹,就把你榨干,留下一些粉末。 「蒸馏」在 AI 领域原指大模型教小模型——用大模型的输出当训练语料,训出参数更小的模型。本期讨论的是「人的蒸馏」:把人的知识、经验、判断变成结构化数据和可执行模型。 翻译成制造业语言叫「知识图谱化」。工业时代 SOP 手册、互联网时代客服知识库、元宇宙年代 AR 操作培训——全是蒸馏。AI 时代的区别在于一条线:以前的蒸馏产物是「辅助人工作的」,现在的是「让计算机自己运行的」。经验变成了可执行、可生成的代码和模型。 colleague.skill——两个月前刷爆社交媒体的鬼故事。Nixon 读了 GitHub 源码:抓取飞书、钉钉、Slack 聊天记录,按模板抽取工作能力和说话风格,输出一份 Markdown 提示词文件。没有模型微调,没有向量检索。「文风模仿确实有用,但专业判断完全够不着。高级角色扮演,不是数字分身。」 06:04 Meta 的 8000 人裁员,真的是 AI 干的吗 很多 CEO 将 AI 与失业联系起来,这种说法简直太懒惰了。这只是他们装腔作势、显得自己很聪明的一种方式。——黄仁勋,2026 年 5 月 25 日 Meta 推行 MCI(模型能力提升计划),员工电脑装软件采集鼠标键盘屏幕数据,一周后裁员 8000。媒体把两条线一连:「蒸馏员工→AI 学会→裁掉真人」。托马斯 拆解的要点:Meta 当时预训练从第一梯队掉到第二第三梯队,MCI 是企业级数据采集用来训练基础模型,不是针对每个岗位做替代。「相关性被包装成了因果性。」 黄仁勋在 2026 年 5 月 25 日新加坡亚洲新闻台的专访里直接抽了回去:「AI 仅仅在 6 个月前才开始发挥作用,他们却早在两年前就因为 AI 裁员——这怎么可能?完全说不通。」「我对此非常反感,这样做是在吓唬大家。」 Nixon 提出了一个更底层的框架:理解裁员先得理解招人。招人不因为「这个岗位必须有人干」——是因为低利率的钱、市场机会、冗余备战。裁人同理,「是那几个审批人认为需不需要这个人。由人和人之间的虚构规则形成,不是物理需求。」托马斯 举了腾讯吃鸡的例子:内部多个团队同时做手游版,跑出来的吃下整个市场,没跑出来的被裁——跟 AI 无关。 数据说话:BOSS 直聘 2026 Q1 软件工程师岗位同比 +10.9%,美国 +9%。LinkedIn 上 AI 创造的岗位 190 万个。英国工业革命 100 年里劳动人口翻了 3 倍。硅谷边裁边招:Google 2025 年新招的 AI 工程师 20% 是被裁后招回的「回旋镖员工」。有学者说这叫「股价游戏」——大裁一波跟董事会交差,股价涨了再悄悄招回来。微软叫停了内部 AI 编程工具,不是不好用,是 Token 太贵——「大厂 AI 经济学第一次翻车」。 16:29 毕业典礼的嘘声,机器人还替代不了阿姨 Eric Schmidt 在亚利桑那大学被嘘,真实原因是性侵指控——典礼前 1260 人签名请愿取消他的演讲资格。他全场讲技术史,只是「讲到 AI 的时候嘘声大了一点点」。中央佛罗里达大学传媒学院那场更像起哄,学生跟他完成了一次轻松的互动。反例:黄仁勋在 CMU 演讲没被嘘。 一两年前,哥伦比亚大学毕业典礼上,学生打开电脑对着镜头展示「ChatGPT 帮我完成了学位」。同一代年轻人怎么可能集体反 AI?Nixon 的总结:「中登老登的断章取义。看到新闻就取了这么个标题。」 杭州 AI 替岗降薪案:35 岁大模型质检主管,月薪从 2.5 万被降到 1.5 万,协商不成解除合同。杭州中院二审认定违法解除,判赔 26 万。法官原话:「AI 不是你客观情况发生的重大变化,因为 AI 还不能实质性替代劳动者岗位。」广州 Midjourney 替代平面设计师案同样判公司赔钱。 物理世界:托马斯 家的机器人离替代保洁阿姨还有 5-10 年距离。阿姨看着机器人,「一种既好玩又怜悯的目光」,效率差了 100 倍。 27:46 配音员小鱼——连证明自己是人都很难。真实的蒸馏以隐性状态发生 我只是想让更多人知道我是个人。现在在网络上证明我是个人都很难。 小鱼,配音界腰部从业者。短视频爆发期月入两万多。合作的客户把她的音频拿去训练成模型,按 688 元打包成工具卖给其他人。偷她声音的人赚了 100 多万。 平台为鼓励优质内容打压 AI 配音——但大量视频共用同一条声线后,平台标记它为 AI 声线。小鱼用自己真人声音上传,系统判定:「你是 AI 做的。」甲方被平台运营打电话:「你内容很好,但换一个配音。」光固定证据要十几万,三年没攒下打官司的钱。 头部也在沦陷。《哪吒》太乙真人配音张珈铭,2025 年公开说不担心 AI 冲击,2026 年 4 月说丢了三个商单。从「不担心」到「丢单」,只隔了 12 个月。 Nixon 给出了本期最核心的判断:「蒸馏不是靠技能替代发生的,是改变供需关系发生的。链条上每一方都没错。平台要打击 AI 内容没错,甲方要降低成本没错。但你站在最容易受害的那一端,你承担全部后果。」 33:19 十万块买断你的声音?我们差点就点了 当你的声音出现在卖豆腐的口播视频里,你这个声音的价值就已经被完全曲解了。 一年前 托马斯 和 Nixon 收到某大平台邀请:录音棚录 10 小时素材,报价 10 万以上,训练后生成 AI 播客。两人一度认真考虑——「不是为那几万块钱,是想拓展声音辨识度的机会。」 仔细看合同后放弃了。条款只约束「不在哪些平台用」,管不到第三方二次扩散。核心恐惧:「已经做了快 100 期节目,不知道哪期说过哪句话。有人找到模棱两可但意思大相径庭的话 quote 出来,连我们自己都要愣着想一想到底是不是真的。」 此后几个月,接受授权的播客同行开始在小红书、微博发声明:「如果你在其他地方听到我的声音,记住,不一定是我说的。」粉丝留言:「某某老师,以为你去那个平台做节目了。」 Nixon 提炼了本期第二个核心概念——「语境损坏」:声音还在,但「它代表你的那种关联」被永久污染。三层:声音从艺术作品到地摊广告(价值语境损坏);AI 用你的声音说了你从不会说的话(关联语境损坏);小鱼那句「我连证明自己是人都很难」(身份语境损坏)。「人对被错误代表的痛苦,远超对被替代的痛苦。前者关乎尊严,后者只关乎收入。」 39:29 京东涅槃计划——刘强东说一个不裁,可能很难做到 硅谷的 CEO 现在想的都是怎么靠裁员抬股价,刘强东是第一个说「我会尽可能保住所有人的工作」的。 三条时间线:2025 年 11 月乌镇,喊出 5 年采购 300 万台机器人、100 万台无人车、10 万架无人机,员工每周只工作一天。2026 年 4 月产业发布会,宿迁动员 60 万市民参与数据采集,目标两年内 1000 万小时 ego data。5 月 27 日内部讲话,「涅槃计划」——「蓝领工人白领化」,让快递员、分拣工转型机器人运维技工。 Nixon 第一次听到「蓝领白领化」觉得好笑——白领明明比蓝领更危险,你要让快递小哥去做表格吗?看了原视频才理解:不是坐办公室,是跟机器人协作、做维保。京东在全国建 80 多个 RoboBase 运维基地。满配 150 人一个基地,约 12000 个新岗位。一线员工 40 万人。缺口差 30 倍。 托马斯 的解读:京东所有快递员都是正编员工,区别于行业大部分用外包的公司。承诺确实无法完全兑现,但在硅谷 CEO 集体拿 AI 抬股价的语境下,「已经是最良心的叙事」。真实原因:替代密度最高的不是末端配送,是前端分拣分装。从小区楼下到家门口这段路,工程师还得亲自搬着机器人上楼。「最后一公里难度极高。」 50:13 为什么物理世界蒸馏被点赞,数字世界被嘘 坐在桌子前面让大脑疯狂动,更像是黑客帝国里面的电池。 共情逻辑解释一切。白领看 AI 写代码,能想象自己被替代全过程——共情链路成立,恐慌成立。蓝领看机械臂叠衣服,不觉得它能替代自己——共情链路不成立。再加上物理蒸馏带来增量收入(工人每天多 100-200),数字蒸馏直接压价到地板。 托马斯 提出了「具身劳动」——把脑力体力聚合在一起的未来工作方式。「白领的 dirty work 一点都不比蓝领少。只不过在桌子前面呆坐着看起来没流汗。为什么白领精神状况和睡眠比蓝领差?你也在做大量脑力但非激荡的工作。」 56:47 同一台摄像头三个国家的三种价格 + 三段分配史 Shift 纽约免费上门家政——消费者不花钱,家变数据采集场,清洁工拿正常报酬。中国工人多一份数据补贴,增量

    1時間35分
  5. 5月24日

    DeepSeek V4价格骨折背后:一位“二流程序员”的两次红利时刻-对谈 Proma 开发者Erlich-Vol97

    2026 年 4 月底,DeepSeek V4 Pro 悄悄发布,几天后宣布全系 2.5 折、缓存命中永久 1/10,后续永久降价。同等性能下,它的价格是海外模型的几十分之一,国产旗舰的 1/2 到 1/4。当所有人都在算「DeepSeek 赚不赚钱」的时候,我们找到了独立开发者 Erlich。他做了 DeepClaude 和 Proma,一个人加一个实习生,从五一假期开始看着DeepSeek逐步占了他平台用量的 90% 以上,活跃用户量翻倍。他用两次「吃到DeepSeek红利」的经历,讲清楚了 DeepSeek 的降价底气从哪来、套壳为什么不是贬义词、中转站的灰色生意有多危险,以及为什么「不拿投资」可能是当下理性的选择。 01:45 一个「二流程序员」的两次红利 很多的技术可能都是二流的人才会得到非常大的红利,二流的人逐渐变成一流的人。 Erlich 软件工程毕业,觉得自己代码写得烂,做了产品经理。一年里只有一半时间在正经工作,另一半在做自己的小项目、看其他公司。 22 年底 ChatGPT 发布后开始重新写代码。「过去一直学不懂的概念,立即通过实践就可以学得懂了。」 从复制粘贴 ChatGPT 代码开始,23 年 6 月跟 AI 聊天聊出一个 RAG 客服产品,顺利上线。 24 年进入 Cursor 和 Windsurf 时代,25 年初 DeepSeek R1 发布后做了 DeepClaude——把 DeepSeek 的推理和 Claude Sonnet 的代码生成串联起来,成了他第一个爆品。 26 年 4 月 DeepSeek V4 Pro 发布、价格打到 2.5 折,他的 Proma 日消耗从 8 亿 Token 飙升到 40 亿,活跃用户翻倍。 05:33 DeepClaude:把两个模型「连起来」的偶然之作 我是不是可以把这两个模型连在一起,就只要 DeepSeek 的思考,用 Sonnet 作为输出? 起因:群里有人分享了用 DeepSeek 做 planner + Claude Sonnet 做执行的评测,准确率远超单独用 Sonnet。但那个 demo 不支持 OpenAI 兼容接口,Erlich 当天动手重写了个兼容版本。 后来泛化到所有模型组合:DeepSeek + Gemini、DeepSeek + Claude。 Nixon 从那个时间点开始把脑放电波的 show notes 和文字稿全部切给 AI 写。一期节目的文稿生成成本大约 50-100 块人民币——「你知道模型很聪明,你巴不得一次性喂它七八万字,它哐哐哐跑掉 50 块钱的成本,吐出来一个你能用的东西,这个爽感维持了非常长的一段时间。」 用户群里有大量写小红书文案的运营(一天几百上千条)、写论文做润色的学生、还有专业作者。 14:37 从中转站到桌面 Agent:Proma 是怎么来的 那一整晚没有出现任何一个错误……我一下觉得,哇,这个世界不一样了。 25 年 10 月 Erlich 在全国跑 WebCoding 活动,帮两家公司做 demo 时接触到 Claude Agent SDK。20 分钟搭出一个能投入使用的 demo。 同时发现 DeepClaude 用户开始流向 Cherry Studio 等有内建 agent 渠道的产品。「用户不需要一个 API 中转站了,他们需要一个有界面的东西。」 Claude Code 碾压 Cursor 的关键:不假设上下文集中在某个打开的 Tab,而是先探索整个代码库再做修改;开发者 Boris Cherny "左脚踩右脚"自我迭代,一天发5-10个版本。 Proma 内核是 Claude Agent SDK——和 Claude Code 同一个内核,但套了普通用户能用的图形界面。 和 Claude Code 的核心差异:Claude Code 的目标用户是程序员,用终端 UI;Proma 的目标用户是「不想装命令行的人」,以及需要用国产模型的国内用户。 「我们只需要加一句话,就是『你在积极用 sub agent』,就可以做得比 Claude Code 还好。」——这就是 harness 工程的价值。 28:30 DeepSeek V4 Pro:悄悄发布,然后打了 2.5 折 我最开始都不相信,因为我并没有在任何公开的渠道看到这种新闻稿。 4 月 24 日 V4 发布当天,Erlich 是在用户群里看到消息才知道的。「我感觉他完全不想要自己有什么声量。」 一天之内完成接入。第一感受是快——「首 token 可能一两秒之内就会回来,一两秒里边有绝大部分都是网络延迟。」 价格时间线:4/25 上 2.5 折(原定 5/5 结束)→ 4/26 上全系输入缓存命中永久 1/10,可与 2.5 折叠加 → 4/28 把 2.5 折延长到 5/31 → 5/22 永久降价 五一期间用量不降反升:假期第一天 8 亿 Token,每天比前一天高,五一中点冲到 40 亿。DeepSeek 在 Proma 平台上的用量占比超过 90%。 33:36 几十倍价差是怎么来的:缓存、稀疏注意力与国产芯片 Tokens 价格每个季度大概以 30-40% 的速度在下降,3 到 5 年内还有 1-2 个数量级的下降空间。 Opus 4.6/4.7 平均每次请求成本差不多是一块钱一次。DeepSeek 这一轮的话,每次请求成本差不多就是几分钱到几毛钱。 账面价格:输出端 DeepSeek V4 Pro 是 Claude Opus 4.6 的 1/30(2.5 折期间),输入端是 1/12。缓存命中时拉到 144 倍。 Claude 的缓存机制拖了后腿:缓存写入额外收费,时间隔得越久越贵。Nixon 一天用三四次、每次隔三四小时,实际体感接近百倍差异。 Erlich 后台数据:Opus 4.6/4.7 平均每次请求成本约 1 元,DeepSeek V4 Pro 几分钱到几毛钱,便宜的甚至显示 0.00。 V4 Pro 低价背后的技术栈:DSA 稀疏注意力(不看所有上下文,先扫索引再精读)→ CSA 压缩稀疏注意力(KV 缓存先压到 1/10 再存显存,只解压选中的部分);Ingram 把静态知识存 CPU、动态知识存 GPU;3B 小模型 OCR 实现 10 倍无损图片压缩。 华为昇腾 950 超节点预计下半年批量上市,硬件成本在英伟达 1/4 以下。DeepSeek 在 V4 价格表下方直接预告:昇腾 950 上市后 Pro 还会大幅降价。 同期腾讯 CodeBuddy 企业版 5/15 涨价 154%。「算力侧在涨,不是降。」三种商业模式已分叉:DeepSeek 走「模型即心智」(不靠 API 利润),智谱/Kimi 走「API 是主营收」,阿里/字节走「云 + 模型一体」。 49:23 套壳与中转站:去污名化、灰色生意与消费者防坑指南 一个产品如果你爆火了,你每天要处理几十几百个 PR 的时候,你的产品已经没有任何理念了。 「套壳」的贬义来自投资人叙事,不是普通用户。Erlich 的判断:壳的核心价值是帮用户收集、处理和整理上下文——GPT 和 Claude 的应用端不可能为每个人生成单独版本,所以壳永远有价值。Skills 火了之后这个价值更成立。 中转站三层生态:最底层是闲鱼上 1 元抵 20 美金的 API Key(来源可能涉及谷歌邮箱薅试用、信用卡盗刷);中间层是开发者自建的 NewAPI 套壳站(保守估计国内几万到十几万个);顶层是中国移动、电信、猎豹移动(EZ Router)、孙宇晨和特朗普家族等正规军入场。 中转站三大风险:① 挂羊头卖狗肉——2026 年 3 月 CISPA 论文实测 45.83% 的节点通不过模型身份验证,你的 Opus 4.6 可能是国产 model 冒充的;② 跑路——Erlich 自己被坑过多次,「后来就算了,我们不如优化一下 DeepSeek V4 Pro」;③ 提示词注入木马——中转站可以在中间插入提示词,让 agent 无脑执行、给你的电脑装软件。 「所有在用中转站的朋友,如果你自己不是非常信任的话,机密信息不要去用它。涉及到登录、验证、密码这类的。」 1:11:28 不拿投资、不追风潮、每次多写半句话 我觉得到今天来讲,其实没有什么东西真的是颠覆性的。可能 22 年你能跟着 ChatGPT 一起通过复制粘贴的方式写代码,到今天你只是用了 agent,它只是更快了一点而已。 给普通用户的建议:找一个顺手的产品(豆包、Kimi、DeepSeek 都行),用它解决一个你工作里实际遇到的小问题。每次尝试多做很小很小的迭代——「哪怕每次多说一句话,或者是半句话,这种级别的改进都是远超任何 agent 的。」 Erlich 不拿投资的原因:拿了就要一轮接一轮地拿,承诺 5 倍、15 倍、几十倍增长,然后被迫招人、被迫演戏。「如果我们一旦往那个方向去走的话,我肯定会损失很多我现在觉得我有连接的用户。」 他的计划:赚到钱后成立一个小基金,投给「心地善良朴实、在一线做事、不想做多大规模」的独立开发者。「我可能攒到几千个人,我们两三个人就活得很好了。我的时间才刚刚展开,我才 30 岁。」 人物: Erlich - Proma(https://proma.cool/,最丝滑的 套壳 Agent)开发者,个人网站 https://erlich.fun/ 托马斯白 - “脑放电波”主播,消费电子营销人,科技媒体特约作者 Nixon - ”脑放电波“主播,硬件产品经理,前媒体记者 剪辑制作:Jeff 欢迎订阅脑放电波,2024/25苹果播客周度推荐节目、小宇宙累计13次编辑推荐单集、2024CPA播客中文奖年度科技数码类播客 欢迎在评论区留言发表你对 DeepSeek V4、Erlich 经历 的感受与看法 对于节目话题的更多观点,获取更多未呈现在节目中的扩展阅读,欢迎添加脑放电波小助手微信(BrainAMP01),附言“深度求索”,加群参与讨论,后续会发布本期节目的文字稿 节目中用到的音乐:来自monkeyman535的90's Rock Style,地址freesound.org;来自kjartan_abel的Berlin Town,地址freesound.org;基于 CC BY 4.0 DEED 使用。 脑放电波往期节目精选(搜索关键词可收听) 具身智能:灵巧手 / 消费机器人浪潮 / 戴森与追觅 / 大疆扫地机 / 宇树机器人 AI 造物:3D打印机 / 3D打印的"iPhone时刻" / 3D扫描、生成与打印 / AI玩具和国产芯片 AI 应用:闪念贝壳 汽车聚变、

    1時間20分
  6. 5月11日

    独家实测机器人上门保洁:149元3小时背后,数据与能力的天花板-Vol96

    在58同城约了个机器人上门做保洁,来的不只一台机器,还自带工程师、保洁阿姨和货拉拉司机。这一期不只有自变量的保洁机器人。去年在北美花60美金30分钟体验了一次机器人按摩,回头一查,那家叫Aescape的公司今年4月破产了。维他动力的Vbot机器狗也开始大规模交付了——4000台,占去年行业产能的五分之一。三段亲历,同一个问题:消费级机器人离"有用"到底还有多远? 后半段我们扎进了行业数据策略的争论。Jim Fan在红杉闭门会上说VLA已死,世界模型才是出路。我们还扒了最近Figure、Generalist、Genesis AI三家放出的demo——这些视频看起来一个比一个强,但在真实场景里的表现,我们存疑。 02:00 自变量机器人上门:149块3小时,谁在干活? 一台机器人进门要三个人伺候:工程师、阿姨、货拉拉司机。 58同城APP预约,目前只开放深圳。149元含一位保洁阿姨+一台双臂机器人+一位随行工程师。阿姨收拾厨房厕所卧室,机器人只负责客厅——过不了门槛、挤不进卧室。 机器人是轮式底盘,宽50cm长80cm高约1.5m,重几百公斤。两个夹爪能从地面夹到1.5m高,工程师得用货拉拉运、用斜坡推下车,"抱是抱不下来的"。 它在客厅干了这些活:把倒地书包拎起、拉上拉链(夹了3次)、三个书包摞一摞、叠了五六件衣服(每件5到10分钟)、茶几杂物归类后丢垃圾、餐桌杂物叠成半桌、临走把门口鞋摆好。中间死机一次,停了20分钟。 机器人完全静默——没有音响,零交互。托马斯白没法给它派活,"他进来就直奔沙发开始干,我没有做任何表达"。背部USB口插着一个4K HDMI发射器(用来回传画面和遥操指令),工程师自带了华为5G路由器组网。 10:00 拉拉链那一幕:惊艳是真的,推测有人在遥操 我给遥操的大哥点个赞了,手法真好。 书包拉链是拉上了。从地面拎包→放沙发→夹拉链(失败两次)→换到侧面夹→成功,整个过程2分多钟。动作精细程度远超目前任何全自主模型的公开水平。 托马斯白中间说了一句"这个可以放在旁边的箱子上",机器人大约2秒后转头找到那个箱子放下,感觉"后台有人在听"。 中间停住过一次,工程师查网络、联系公司,约20分钟恢复。 行业惯例:1X的人形机器人进家100%遥操,智元2025年展示的做三明治也是遥操,Tesla Optimus那次倒啤酒后来也被爆是遥操。Nixon:"凡是看起来太完美的家用机器人现场,默认它有遥操背景是更合理的判断。" 叠衣服的表现倒像自主尝试——不是人类叠法,不甩不抖,左抓右抓,叠得"比我儿子还差点"。托马斯白的猜测:拉拉链这类精细活是遥操,叠衣服这种标准化任务可能切到了世界模型在跑。皮沙发脚托很滑,衣服下半截接触台面后还会被拉移位。烘干后带皱的不同面料,跟实验室里轻薄垂顺的T恤完全是两码事。机器人没有"甩"这个动作能力——而叠好衣服恰恰需要抖和甩。最后那叠衣服只能说变成了方形,里面的皱褶全在。 33:00 按摩机器人为什么死了?Aescape的1.57亿美金教训 像在工厂里被按摩。节奏、节拍、运行声都像车间设备。 Aescape,2017年成立,Equinox健身房和四季酒店有部署,30分钟60美元。上个月申请破产,累计亏了1.57亿美元,融了1.2亿,资不抵债。 Nixon去年10月体验:先上网填衣服尺码,到店换上紧身瑜伽服,摘掉项链摘项链、Body Scan,塞好衣角。躺在床上,左右两个"螃蟹钳子"机械臂开始从上到下、从轻到重地滚。咔特咔特的充放气声+散热风扇嗡嗡响,背景放着冥想音乐也盖不住。 力控粗糙。机械臂无法像人手一样一会儿用手掌一会儿用骨节调节压强,力道偏大时Nixon只能自己往下滑来躲。触觉也没精细到能感知衣服材质——所以才必须让客人穿统一面料,"用流程兜底感知能力不足"。 一周只能约三天,剩下四天机器在维护。"一台机器7天只干3天活,单店利用率直接腰斩。"商业模型里回本周期、维护成本、场地分成三项一算,根基本来就是裂的。 41:00 Vbot机器狗量产 5月8号首批500台下线,5-6月产能冲到2500台/月,四千台进家庭。Pre-A轮近5亿元,目前消费级具身赛道单笔最大。CEO已明确下一站在做全尺寸人形机器人。 Nixon在上海长宁来福士探店,商场草地和教堂广场上牵着遛了15分钟。四种跟随模式:稳态(要使点劲拽)、省力(手腕一转就跟)、户外探路(机器在前)、跟随(机器在后)。UWB信标=远程牵引绳+跟随定位锚,内置麦克风能语音查询"来福士到长宁区政府怎么走"。 新配件包括静音组、防夹手设计、家庭守护(本地48小时存储),后续Openclaw SDK路线是"模糊指令→自动编程→完成任务"。 4000台=去年行业机器狗总产能的1/5。Nixon:"量产是数据滚轮的入场券。硬件趋同后,操作系统和生态才是真正的护城河。" 45:00 数据游戏变了:从人手把手教,到iPhone绑头上拍 过去两年,行业靠VR遥操攒数据起家——让操作员戴着VR头盔用手柄控制机器人做动作,录下来当训练样本。这条路走到头了:单工位年运营50万+人民币,建1000个工位也凑不到100万小时;遥操员没触觉反馈,成功率只有1/3;动作慢、动作僵,抖衣服这种依赖速度的任务永远学不会。 2025年出现拐点。单目人体姿态估计成熟,iPhone第一人称视频能精准提取21个手部关节——戴着手机正常干活就能产训练数据。英伟达EgoScale的配方:2.1万小时ego视频做预训练(主食),加50小时数据手套(精细对齐),加4小时遥操(校准锚定,不到0.1%),就训出了符合scaling law的模型。 Build AI,一家18岁哥大辍学生创办的公司,把iPhone和头戴相机绑在亚洲数千名工厂工人头上。去年10月开源1万小时,年底扩到10万小时,今年目标100万小时。这本质上是把"采人类视频"做成了流水线生意。 三条线都在跑,只是权重在变:遥操→黄金数据(微调锚定用),ego视频→基础数据(预训练主粮),Human Data多模态→核心数据(力觉触觉全身动力学)。Jim Fan给的金字塔很直白:塔尖遥操最难扩展,塔基第一视角视频千万小时级别起步,"饭在塔基"。 01:00:00 Jim Fan的“暴论”:VLA已死,WAM当道 可乐罐放在Taylor Swift照片旁边——这是VLA最高光的demo,也是天花板。 VLA(Vision Language Action)的根子是让语言模型理解物理任务。Jim Fan在红杉闭门会上直接给VLA画了个墓碑RIP。原因很简单:"绝大部分参数给了语言",而语言在物理世界里是有损压缩——"把可乐罐放在Taylor Swift照片旁边"这种任务靠语义指代能行,"把这件衣服叠成刚好能塞进抽屉的样子""绕着这盆花的形状擦桌子"——全是"差不多""刚好""大概",文字编码不了。 WAM(World Action Model)替代思路:预测世界下一帧画面,让动作微调把预测兑现成执行。"如果模型预测的下一帧是对的,动作通常就是对的。"作品Dream Zero,Jim Fan说这是"机器人的GPT-2时刻"。 01:11:00 实验室里的Demo:精修画面和真实世界之间隔了多少次摆拍? 我们不知道是不是遥操摆拍了十多次,最终给你剪一段出来。 Generalist(GEN-1)放出6个特定任务99%成功率,背后是50万小时人类动捕数据。仔细看:只有T恤折叠、吸尘器维护这6个任务到了99%。其他任务泛化能力未知。全程没有语言参与——"没有语言就没有目标,机器人其实不知道自己在干什么。" Genesis AI(GENE-26.5)打蛋、切番茄、做奶昔,多数子任务90-95%。打蛋和刀转移番茄两项最难的只到50-60%——打蛋刚好是"特别讲究触觉和手感"的动作,这两项做不好,离真实厨房还很远。公司自己说的是"30秒复杂技能=几小时人类数据+不到半小时机器人执行数据",路径是人类预训练+少量机器人适配+仿真闭环(他们原本就是仿真平台出身)。 Figure(Helix-02,5月8号放出)双机协同卧室整理:开关门、挂衣服、收耳机、倒垃圾、推椅子、盖被子,不到2分钟。画面精美,布景专业,打光讲究,像一个广告片。"考虑到今天机器人的遥操如此普及,我们不知道它真实的能力边界在哪里。" 这三个Demo都是在实验室条件下精挑细选的展示。播客前半段聊的那三台机器——自变量保洁干3小时死机、Aescape一周坏四天、Vbot机器狗遛狗体验——是任何普通人都能上手体验、看到所有失败和局限的真实产品。精选画面和完整工作日之间,差的不是技术参数,是"能不能在全天候、无人值守的条件下持续工作"这道最硬的门槛。 相关视频: 自变量机器人发布会 北美机器人按摩 维他动力 vbot 【红杉AI Ascent 2026】 英伟达Jim Fan:机器人领域的终局 Generalist AI发布GEN-1!一脚踹开“精通物理任务”的大门,1小时数据,成功率达到99%_哔哩哔哩_bilibili Genesis www.bilibili.com Figure的demo www.bilibili.com 人物: 托马斯白 - “脑放电波”主播,消费电子营销人,科技媒体特约作者 Nixon - ”脑放电波“主播,硬件产品经理,前媒体记者 剪辑制作:Jeff 欢迎订阅脑放电波,2024/25苹果播客周度推荐节目、小宇宙累计13次编辑推荐单集、2024CPA播客中文奖年度科技数码

    1時間20分
  7. 4月20日

    亲历机器人马拉松:破纪录、狂欢与20个被忽视的洞察-Vol95

    本期是针对机器人上下肢技术盘点的下肢(运动控制)部分 上肢(灵巧操作)部分请收听这期节目:和NVIDIA、Sharpa谈灵巧手:从削苹果到Scaling Law,机器人离"有手感"还有多远?-Vol94 2026年北京亦庄人形机器人半程马拉松开跑,打破人类半马世界纪录,去年比赛的前三名今年连关门都进不了。本期节目从现场带来20个现场观察、技术与行业判断——从跑姿、构型、散热、自主导航到「为什么机器人一定要人形」,以及荣耀这个手机厂商为什么能闯进机器人领域。 01:47 赛事背景与成绩:去年冠军今年当关门机器人 「去年只有6支机器人完赛,第三名跑了三小时三十五分钟。这个成绩放在今年——只能作为关门机器人。」 2026年参赛超100支队伍,冠军荣耀「闪电」(自主组)以50分26秒完赛,打破人类半马世界纪录(人类纪录:基普利莫,57分20秒,2026年3月) 遥控组冠军荣耀以48分19秒冲线,乘1.2系数后排名第九;前三名全部来自自主导航组 规则细节:自主组系数1.0,遥控组系数1.2;换机器人首次罚15分钟;换电不罚时但计时不暂停 去年天工冠军靠的是跟着背信标领航员的UWB半自主导航,今年全自主——连保障车都追不上现场直击:开车追机器人,没追上 「我在两点五公里处等着,过了一分钟才看到人影慢慢过来——在那个点就已经拉开一分钟的距离。」 Nixon 从起点附近跑到4~6公里处的补给点,下车时跑得快的机器人早已过去,能看到的全是「老弱病残」 遥控手去年是闲庭信步跟在后面,今年速度超人类极限,全部改坐高尔夫球车;部分宇树队用笔记本摁方向键遥控,为了实时看内部参数 备用机器人被安全带绑在保障车最后一排,「像个观众一样坐着」10:40 跑姿观察:快不等于美,下肢还没有泛化 「人类跑得最快的,一定也是最美的——但机器人今天还做不到又快又美。」 前几名机器人入弯瞬间普遍有短暂「停顿」,切换 policy,相当于电脑切换任务时的 loading 过弯时机器人无法整体倾斜,只能靠下肢呈倒V字形补偿——根本原因:脚踝左右自由度被拿掉,无法提供足够向心加速度 荣耀「元气仔」,使用马拉松运动员动捕数据训练,央视直播解说称「跑姿像女性马拉松选手」 强化学习+模仿学习(AMP)让跑姿越来越像人,但 retargeting(仿真到真实机器人的映射)的损失是跑姿不够好的根本瓶颈29:43 构型之争:翘臀派 vs 三角裤派 「前三名都是那种翘臀,荣耀、宇树H1、天工——已经有点超越仿生学了。」 适合高动态奔跑的构型:髋关节宽、臀部后翘(「青蛙翘臀」),荣耀闪电/宇树H1/天工均是此构型 宇树H2和特斯拉擎天柱是另一派:「三角裤」构型,更接近人体外形,适合日常行走和精细作业,但不适合高动态跑步 「刀锋战士」:碳纤维C型弹性脚板(仿义肢),理论上最省力,但最终名次不佳——算法与材料弹性配合未到位 托马斯白 观点:这不是超越仿生学,而是像短跑运动员/长跑运动员/举重运动员各自发展出了不同体态——仍然是对人类的分场景模仿35:55 散热战场:水冷、干冰与自带烟雾 「有的机器人赛前在关节位置放了干冰,跑着跑着就自带烟雾效果——搞不好有人以为着火了。」 今年头部队伍全部收敛到液冷方案:背后超大风扇+软胶水管连至膝踝关节 没用水冷的基本进不了前十;部分队伍跑一段就停下来,工作人员手持「涂鸦罐」往关节处喷降温喷雾 电机散热是核心瓶颈:往复运动导致发热,有效散热面积不足,制约电机持续输出功率38:20 荣耀为什么赢:手机厂商的可靠性体系 「荣耀的6台机器人全部完赛,撞了护栏、担架都出来了,结果迅速恢复步态完成最后200米冲刺。」 手机厂商的跌落测试、散热经验、工业制造一致性,直接平行转移到机器人——这是初创机器人公司短期内补不齐的 电机扭矩达400牛米(官方采访数据),相当于汽车发动机水准,且全部自研自产 ID设计:「蚕蛹/机甲风」外壳兼顾风阻系数,整体完成度远高于大多数参赛机器人 「极海战术」的另一面:头部团队派6~8台机器人参赛,本质是 policy 未收敛+一致性未达标时的风险对冲46:25 遥控与导航:看起来和开车一样,实际上不是 「我以为封路的赛道应该很简单,但它识别到障碍物、切换 policy,结果两台机器人把赛道堵死了。」 首摔事故:宇树机器人摔倒堵赛道,天工机器人避障时切换 policy 失败,连环倒地 日夜训练环境差异、赛道旁人群张牙舞爪、阳光直射——这些 corner case 在仿真中模拟了,但 SIM to Real 的 gap 仍然存在 今年自主组普遍采用 RTK(厘米级局域GPS)+ 激光雷达 + 视觉避障的多传感器融合方案,比自动驾驶面对的环境更复杂52:12 下肢的历史以及为什么重要:它不是坐骑,是上肢的一部分 「Figure AI 的 Demo 里,机器人用屁股顶了一下洗衣机的门——因为腿在那里,所以屁股才能在那里。」 为什么一定要人形双腿:通过性(台阶/窄道/侧身进储物间)、重心稳定(盘式底盘需几百公斤才不倒)、人类社会环境完全为双腿设计 下肢不是坐骑:腰部前弯需要下肢固定支撑,两腿叉开才能让上肢伸够目标,「用屁股顶洗衣机门」也是下肢在工作 2026年初投资圈对下肢领域「回春」:运控新成果涌现,部分投资人重新关注下肢方向创业者——「跑得更快更强的冲击感,目前还是下肢更猛」本期是针对机器人上下肢技术盘点的下肢(运动控制)部分 上肢(灵巧操作)部分请收听这期节目:和NVIDIA、Sharpa谈灵巧手:从削苹果到Scaling Law,机器人离"有手感"还有多远?-Vol94 人物: 托马斯白 - “脑放电波”主播,消费电子营销人,科技媒体特约作者 Nixon - ”脑放电波“主播,硬件产品经理,前媒体记者 剪辑制作:Jeff欢迎订阅脑放电波,2024/25苹果播客周度推荐节目、小宇宙累计12次编辑推荐单集、2024CPA播客中文奖年度科技数码类播客 欢迎在评论区留言发表你对 机器人马拉松 的感受与看法 对于节目话题的更多观点,获取更多未呈现在节目中的扩展阅读,欢迎添加脑放电波小助手微信(BrainAMP01),附言“机器人”,加群参与讨论,后续会发布本期节目的文字稿 节目中用到的音乐:来自monkeyman535的90's Rock Style,地址freesound.org;来自kjartan_abel的Berlin Town,地址freesound.org;基于 CC BY 4.0 DEED 使用。 脑放电波往期节目精选(搜索关键词可收听) 具身智能:灵巧手 / 消费机器人浪潮 / 戴森与追觅 / 大疆扫地机 / 宇树机器人 / 斯坦福Aloha AI 造物:3D打印机 / 3D打印的"iPhone时刻" / 3D扫描、生成与打印 / AI玩具和国产芯片 AI 应用:闪念贝壳 汽车聚变、泛科技生活:SU7营销复盘 / 3D打印 / 孵化大疆 饮食健康、现代病人:AI助推造神 / 生物骇客 / AI 内容真假难辨 / 控糖革命 / 信息过载 / 长寿革命 / 阿斯巴甜致癌疑云 苹果特权:腕上革命 / 设计哲学 / 苹果供应链迷思 / 苹果广告底层逻辑 / iPhone 15 和它的前任们 / 苹果零售店 AI 相关节目:人机交互的与“iPhone 时刻” / 会喘气的AI语音里藏着下一代交互范式 / 解构Apple Intelligence / 和李楠聊AI硬件 / 611款 AI 生产力工具;脑放电波是一档关注科技前沿、品牌营销和个人成长的谈话类节目。每期带给您一个有趣有据的话题,帮您在信息严重过载的现代世界小幅自我迭代。您可以在小宇宙、苹果播客或者其他泛用型播客客户端搜索“脑放电波”找到并关注我们,如果您对本期节目有任何疑问,欢迎您给我们留言,如果您觉得这期内容对你有所帮助,欢迎您关注点赞收藏转发,这对我们非常重要。 在小宇宙查看该单集文稿

    1時間2分
  8. 4月12日

    和NVIDIA、Sharpa谈灵巧手:从削苹果到Scaling Law,机器人离"有手感"还有多远?-Vol94

    从Sharpa近期的灵巧手Demo讲起,无论是CES上翻扑克牌、折风车,还是在春晚盘核桃,在GTC大会期间削苹果,这些Demo代表灵巧手第一次展示了够胜任精细的以及长步骤任务,这是具身智能在灵巧操作上的里程碑时刻。 探讨灵巧手在硬件上的不同路线,包括直驱代表的Sharpa Wave,腱绳方案代表的特斯拉 Optimus,代表了两种“第一性原理”。 梳理了具身智能行业正在发生的几个关键趋势。NVIDIA、Google DeepMind、Disney Research 联合开发的Newton物理引擎和NVIDIA Cosmos带来的合成数据与虚拟世界仿真;从EgoScale论文中看到的两万小时第一视角数据带来的Scaling Law迹象;具备视频预测能力的世界模型,如DreamDojo实现了一分钟的长程任务;还有SONIC同样展现了运动控制领域Scaling Law的曙光。 在模型架构上,剖析了Sharpa的CraftNet三层系统,从System 2的语言意识层,到System 1的视觉动作层,再到System 0的触觉手感层,以及世界模型、VLA的路线之争,最后讨论了NVIDIA三台计算机(训练—仿真—推理),展望触觉作为新模态、分层预训练推动灵巧操作走向通用泛化潜力。 03:00 从盘核桃到装显卡:这些 Demo 到底有多难? 对于人来说简单的事情,对于机器反而是难的——就像人的 DNA 里携带了预训练的模型,机器人得完全从零做起。——朱雪洲 灵巧操作三个难度级:搬运物体(夹爪能干)→ 两个物体精确配合(插 USB、发扑克牌)→ 改变物体形态(折纸风车、削苹果)。 Sharpa 的长程任务能力是亮点:不是完成一个原子动作,是把很多复杂步骤串起来。 触觉决定下限:带触觉的机器手展会成功率超 90%,观众现场拍打干扰也能找补回来;失去触觉后成功率直接暴跌到 20% 以下。11:30 为什么夹爪不够用?一把刀就能说明问题 人要用好一个刀,你要握持,甚至拿一个手指抵住刀背——夹爪夹住刀是两点受力,那个刀是不稳定的。——朱雪洲 宇树 G1 全身 23 自由度(无灵巧手),Sharpa 单手就 22 自由度——手的复杂度约等于一整个机器人。 夹爪的致命短板:早期训练勉强够用,中后期发现姿势空间太窄,面对极其日常的场景直接束手无策。 人类世界的工具都是为五指手设计的:吸尘器要握手柄还要抠扳机,电动工具同理。夹爪的两点受力根本 hold 不住。 反直觉的训练困境:自由度少的夹爪,可行姿势空间反而太窄,训练中后期发现大量场景不适配,还得从头来。 为什么是五指,而不是四指? 特斯拉等车企坚持在工厂部署灵巧手,其最终目标并非仅限于造车,而是为了打造能胜任各种场景的通用机器人。17:45 从OpenAI在18年的的灵巧手研究开始,谈行业的痛点 当我们在谈 scale 的时候,其实我们谈的在机器人这个领域往往是多个不同角度的scale,它包括任务的scale、数据的scale、模型规模 的scale、计算规模的scale。——Juana OpenAI的解魔方强化学习尝试:没有泛化、没有触觉 NVIDIA的三台计算机加速机器人开发和基础模型构建 第一代硬件:手动力密度比强健人手差 2-3 倍,"两指做俯卧撑"级别的极限指力还做不到;具备触觉能力 模型和数据还在追求 scaling law28:00 灵巧手Know how:直驱 vs 腱绳-特斯拉跳票的卡点在哪? 全腱绳也不是真正仿生——人手内部有不少小肌肉群是直驱的。——朱雪洲 Sharpa 选直驱:22 个自由度全集成在手掌内,和人手 1:1 尺寸,客户不用绑定特定小臂,灵活拼装。代价是手略重,但有明确的轻量化路径。 特斯拉选双腱绳:电机放小臂、手部成本低、空间大,但一堆腱绳挤满管道,任何一根出问题就得"把手整个破开来换筋"。 最终形态可能融合——力量型大肌肉放小臂(腱绳),精细小肌肉留手内(直驱),就像人手本来的结构。 1:1的重要性,好采集数据 为什么不是六指?无法采集数据 在仿真里做数据采集,适配硬件和环境的快速迭代42:40 CraftNet 的架构:首个三分层的模型 一旦接触上物体,你就没有必要视觉上一直盯着看了,这个时候触觉本体已经 take over 了。——朱雪洲 System 2(10B,~1Hz):语言推理层——"今晚做番茄炒蛋,先去冰箱看看有没有鸡蛋"。直接用现有大语言模型,不自研。 System 1(1B,~10Hz):视觉主导——看冰箱在哪、引导手伸过去抓。用互联网第一人称视频预训练。 System 0(0.1B,~100Hz):触觉+本体觉——抓到鸡蛋那一刻视觉就退后,手感接管。用 NVIDIA 仿真环境的合成数据预训练。 三层异步运行、各有主模态,分层的好处:每层单独预训练更高效,数据需求不冲突,避免模态间"互相打架"。51:00 数据金字塔:仿真练手感,视频练眼力,真机做对齐 在真实世界里去做改变是比较困难的,但在仿真里它就非常容易 scale。——Juana 底层(海量、便宜、gap 大):YouTube 等互联网视频,训 System 1 的视觉理解。 中层(可控、可 scale):Newton 仿真引擎合成触觉数据,训 System 0 的手感;Cosmos 系列做风格迁移(Transfer)、未来帧预测(Predict)、洞察推理(Reason)。 顶层(稀缺、贵、gap 小):真机数据,用来把 System 0 和 1 级联在一起端到端调优。 仿真对触觉数据特别合适:真实世界的触觉动捕设备(手套)噪声大、retargeting 难,仿真引擎天生擅长力学建模。 解决遥操的问题,有希望实现远程操作1:06:15 Scaling Law 的曙光:上万小时的第一人称视频 EgoScale:2 万小时第一人称视频训练 GR00T,成功率随数据量呈近对数关系上升,且"还没撞墙"——20 万小时会不会出现 transformer 时刻? DreamDojo:4 万小时第一人称视频走世界模型路线,蒸馏到机器人后能做连续 1 分钟长程任务。 第一人称数据为什么重要:当前视觉 backbone 缺乏 3D 空间转换能力,第一人称和机器人视角直接对应,省掉了"第三人称到第一人称"的转换。 Thomas 的脑洞:短视频平台上的第一人称视频(手一直出现在画面里)、开箱博主桌面视角,说不定是下一个金矿。1:11:20 世界模型 vs VLA:形似但"灵魂还没到" 今天 VLA 可能有点形似,但灵魂层面还没有真理解世界。一个更好的 VLA 本质就是一个基于世界模型的 VLA。——朱雪洲 VLA(Vision-Language-Action):视觉+语言输入→直接输出动作。主流范式,但内部不一定真懂物理因果。 世界模型:学习"做什么动作→世界状态怎么变"的因果律。不一定要生成像素级视频,可以是更抽象的物理状态预测。 NVIDIA 两条路都在推:GR00T系列走 VLA 迭代,DreamDojo 走世界模型探索。1:22:20 模型的协同、运行性能、算力需求 如果让医生把人的手做一个全麻,就是你完全感知不到手上末端信号,然后在这种情况下去做一些手部的操作,很多时候你就会发现你很难完成你原本以为很简单的任务。——Juana 三层模型的协同 基于NVIDIA Blackwell架构的Jetson Thor支持端侧同时运行多任务(硬件分割能力) 非分层模型的道路:GR00T的教师模型,蒸馏一个学生的policy Newton:用GPU加速版本的Mujoco,迪士尼机器人“沙地行走”场景 商业化路径:"先把产品形态做对"是 Sharpa 的核心逻辑:高自由度+触觉+1:1 人手比例,决定了产品能不能在市场存活,价格问题交给起量后的自然下降。人物: Juana Du - NVIDIA 机器人解决方案架构师 朱雪洲(Tom) - Sharpa 研究副总裁 托马斯白 - “脑放电波”主播,消费电子营销人,科技媒体特约作者 Nixon - ”脑放电波“主播,硬件产品经理,前媒体记者 剪辑制作:Jeff欢迎订阅脑放电波,2024/25苹果播客周度推荐节目、小宇宙累计12次编辑推荐单集、2024CPA播客中文奖年度科技数码类播客 欢迎在评论区留言发表你对 灵巧操作、具身智能Scaling Law 的感受与看法 对于节目话题的更多观点,获取更多未呈现在节目中的扩展阅读,欢迎添加脑放电波小助手微信(BrainAMP01),附言“灵巧手”,加群参与讨论,后续会发布本期节目的文字稿 参考内容 1. 物理AI核心技术与平台 Cosmos:NVIDIA 面向物理 AI 的世界基础模型开放平台。 推理 VLA (Reasoning Vision-Language-Action):融合视觉、语言与动作生成的逐步推理 AI 模型。 三台计算机 (Three Computers for Robotics):NVIDIA 为物理 AI 提出的训练、仿真、部署三层计算架构。 Isaac GR00T:NVIDIA 面向人形机器人的通用基础模型研发平台。 Isaac Sim / Isaac Lab:机器人仿真与合成数据生成框架及其配套强化学习框架。 Newton 物理仿真引擎:NVIDIA、Google DeepMind、Disney Research 联合开发的开源 GPU 物理引擎。 2. 前沿机器人论文 DreamDojo:在 4.4 万小时人类第一人称视频上预训练的通用机器人世界模型。 EgoScale:利用人类第一人称数据训练 VLA 模型、提升灵巧操作能力的框架。 DreamZero(GR00T N2 基础研究):基于视频扩散模型的世界-动作模型,具备强大的零样本泛化能力。 SONIC:NVIDIA 在运动控制上的 scaling law 研究,展示了数据、模型和算力规模化的效果 TacMap:高保真触觉仿真框架,行业内唯一可大规模商用的触觉仿真方案,NVIDIA 与 Sharpa 合作开发 3.

    1時間37分

番組について

脑放电波是一档关注具身智能、AI硬科技和生物骇客的谈话类节目。每期带给您一个有趣有据的话题,帮您在信息严重过载的现代世界小幅自我迭代。 欢迎加小助手微信(微信号:BrainAMP01)进听友群参与话题讨论。 主理人: 托马斯白,17+年科技行业从业者,前 XR 创业公司 CMO,科技媒体特约作者(微信Alanneo) Nixon Hu:大厂产品经理、前机器人产品经理、科技媒体记者 (微信hxk2312)

その他のおすすめ