张小珺Jùn|商业访谈录

张小珺

努力做中国最优质的科技、商业访谈。 张小珺:财经作者,写作中国商业深度报道,范围包括AI、科技巨头、风险投资和知名人物,也是播客《张小珺Jùn | 商业访谈录》制作人。 如果我的访谈能陪你走一段孤独的未知的路,也许有一天可以离目的地更近一点,我就很温暖:)

  1. 1D AGO

    127. 大模型季报跨年对谈:和广密预言一场AI War、两大联盟和第三个范式Online Learning

    这里是《全球大模型季报》的第8集,也是我和广密跨年对谈的第三年了! 这集节目将带你看到,在对AGI开始充斥着现实主义情绪回归的当下,全球AI War形成了怎样的战队、阵营和联盟?各个前沿实验室在探索哪些新范式?硅谷又涌现出了哪些新型的研究实验室? 如果你对全球大模型季报有更多的想法或者建议,欢迎大家在评论区留言,我们都会看到。 2025的最后,期待我们和AI共同进步! AI War:一场全球巨头都输不起的竞争 02:00 全球大模型季报陪伴大家到第8集了 03:19 一开始就不免俗地聊聊AI Bubble吧 07:38 OpenAI收入构成算账:看得清的收入和看不清的收入 13:10 有的公司是“巨头的棋子价值” 13:32 OpenAI做商业化的速度问题 15:04 纵观全局,这场AI War的主要推动方和阵营:英伟达GPU vs 谷歌TPU 17:16 Google越强,越会形成反Google联盟,OpenAI越强也会形成反OpenAI联盟 交替领先是顶尖模型的新常态 17:48 全球最领先的3个模型GPT/Claude/Gemini,交替领先是竞争常态 25:40 这里有个偷懒的判断,基础模型=综合电商,scale SKU=scale data 27:40 Gemini崛起,大家会担心OpenAI会怎么办?怎么看待这两家的竞争? 31:20 另一个判断是:最终的最终,ChatGPT会融合传统Search,最终也会吃掉传统Search广告的份额 35:08 大家不把Google当做AI loser诺基亚了,但Google危机没有真正解除 Pre-training和RL之后的第三个范式:Online learning 36:01 Pre-training scaling确实快结束了,但Online learning刚开始 38:49 OpenAI即便分崩离析3-4次了也依然很强:Anthropic是OpenAI最早的Scaling team,Ilya是Pre-training team,Thinking Machines是原班ChatGPT和Post-training team 40:01 说一个暴论:大家提的机器人、世界模型、多模态,很多可能是假问题,Online learning可能才是唯一重要的真问题 41:01 Pre-training预训练是石油,化石燃料;RL专家数据是新能源,有用但总量少;Online Learning是核聚变,还没突破,突破了无敌,人类进入硅基时代 AGI像马拉松 or 自动驾驶?持久战+现金流之战 43:05 如果模型数据分布里面没有这类数据,这类任务就是不work,只有压缩过这类数据,才work——今天的模型还是巨大的压缩器 44:33 “模型即产品,数据即模型” 44:45 听过一个rumor:Sam在内部说先忘掉AGI? 45:04 局部L3/L4,很难整体L4:现实一点的是,在知识工作者群体,局部L3/L4的体验是能看到的,比如ChatGPT做长尾信息获取, Coding Agent, Office/PPT/Excel Agent, Finance金融投研Agent 现阶段对于投资的思考(不作为投资建议) 47:11 上一期播客说的是40%OpenAI+40%字节+10%Google+10%Anthropic 现在是:25%OpenAI+25%Bytedance+10%Google+10%Anthropic+10%Nvidia+10%TSMC,每家都放一点 另外是今天要bet 3年后的范式和winner了,Thinking Machines和SSI这种Neo Labs也应该好好考虑下 2026年,湾区的重要趋势和信号 50:57 2026年期待投资的主题 52:53 模型即产品,数据即模型 54:48 一横一纵:横向蒸馏人类专家知识,横向扩宽更多的行业领域;纵向就是下一代技术范式,Online learning,创造更高的经济价值 56:45 硅谷新冒出的Neo Labs的分布图 59:43 Robotics的最新进展和公司分布 01:05:55 硅谷头部公司的ARR增长状况:越头部的公司越便宜,越头部的公司越没有Bubble 01:08:02 国内的大模型和应用公司 01:09:39 模型的下一个胜负手是什么? 华人创业者、基金和“中国的硅谷” 01:10:16 中美的AI叙事差异 01:12:15 对华人创业者想说啥 01:14:20 为什么说希望推动中国有个硅谷? 01:16:45 3-5年之后全球最领先的AI公司会是华人团队吗? 年终对话【站在2025年之外】 《122. 朱啸虎现实主义故事的第三次连载:人工智能的盛筵与泡泡》 《124. 和戴雨森聊2026年预期、The Year of R、回调、我们如何下注》 《125. 与Altimeter合伙人Freda聊:下注OpenAI、Robinhood往事,美国资本坏小孩、算盘与泡沫》 《126. 和红杉郑庆生聊:经济史的流量革命、人类行为模式的不可预期,与创始人性格》 【更多信息】 免责声明:本内容不作为投资建议。

    1h 18m
  2. 4D AGO

    126. 和红杉郑庆生聊:经济史的流量革命、人类行为模式的不可预期,与创始人性格

    在前几集节目,我们的年终回顾系列【站在2025年之外】,收录了金沙江朱啸虎、真格戴雨森、Altimeter Capital Freda Duan的声音。 今天我们将延续这个系列节目,嘉宾是红杉中国合伙人郑庆生。 郑庆生提供了一个更宏大的视角——他把时间尺度拉长到20年,回看中国从互联网、移动互联网到AI的三轮技术浪潮;又进一步,把视角放进了更宏观的经济史中,用“流量革命”来试图寻迹下一代to C流量节点的端倪。 很巧的是,他于2005年入行风险投资业,今年是他做投资人的20年。 在投资人的本职工作外,他也是一名新产品体验官、一位经济史爱好者。 嘉宾小传 02:00 从1984年开始学习编程讲起 17:17 2005年成为投资人以后:从盛大战投到挚信资本再到红杉资本 人类新的行为模式是不可预期的 19:09 豆瓣和大众点评对我投资生涯的影响:我对此充满了兴趣,是对人类前沿行为模式的探讨 22:19 我对阿北(豆瓣创始人)的印象:“他和豆瓣是合一的” 23:21 我对张涛(大众点评创始人)的印象:“更成熟的有敏感产品洞察力的企业家” 23:55 现在回头看,Web2.0是在人类社会第一次数字化之后做了一波线上内容的产品创新,再往后,共享经济是又做了一次线上、线下结合的大规模创新 24:31 一位经济史爱好者眼中的中国创投20年:05年以前、10年以后、15年以后(Pinterest的范式直接影响了后来的内容平台) 29:13 站在历史的后视镜看,各个内容平台的诞生、繁荣、陨落 “文字是高级形态的知识产品” “图文混排倾向于覆盖文字” “短视频是人类认识世界的基础方式” “最终,短视频挑战的是文字本身” 34:10 人类天然会进化到和自己本来不需要学习、不需要长时间成本投入,就能认知这个世界的方式,AI是不是也回到这点? 35:06 个人视角聊聊抖音、小红书、哔哩哔哩产品和他们的founders “B站的founder更属于自己的产品,跟阿北一样” “小红书是我到目前见过的最开放的产品结构” 39:56 总结:“人类新的行为模式总体是不可预期的” 42:26 我对于个人投资的审美和反思 48:23 为什么当我们觉得C端流量攫取殆尽时,小宇宙或播客会涌现? “听觉是可以唯一多线程并用的感官” 经济史中的流量革命 50:51 移动互联网C端流量终结于短视频,18年、19年以后的很多年都缺乏大的创新,to C投资进入蛰伏期 53:27 流量是人类经济史的支点:公路〉铁路〉运河〉电力〉有线电话〉电视〉互联网 57:21 “你可以认为现在所有的优秀互联网to C产品都是一个巨大的城镇” 57:47 人工智能让我们看到了新的to C流量入口的潜力 01:00:19 不同点:AI时代所形成的网络不是带有自然垄断性质的网络,它的边际成本不趋近于0;更结果导向 01:04:34 人工智能引发了深层次的数字化,我认为会带来新的硬件机会,它可能是大模型之外另一个新的流量节点 01:09:53 为什么AI时代的产品没有形成双边网络效应? 01:12:20 AI产品的商业化比互联网、移动互联网要做的好 01:13:00 投资了Kimi、MiniMax,也投资了Manus,你觉得最终的价值会沉淀在模型公司还是应用公司? AI有泡沫?就跟大海里有泡沫一样 01:18:24 AI时代,红杉的系统性投资策略 01:19:01 红杉对创始人的审美变化 01:19:45 我觉得“赛道覆盖”是对红杉的误解 01:22:10 Agent创业 vs App创业:现在是天生全球 01:23:50 过去三年在AI创业端的变化和节奏 01:24:40 对2026年的展望与预期 01:26:21 AI Bubble:“就跟大海里有泡沫一样” 01:28:39 见证了人类历史的三个流量革命 想象的共同体、抽象的生命和人格化代表 01:29:17 对从0到1、从1到10、从10到100和失败的创业者观察 “CEO要成为组织和制度人格化的象征” “哪怕你做不到都得扮演” “同时有两种天赋是很难得的,又有产品的敏感力, 又扮演组织和部队的人格” 01:32:05 CEO和MBTI 01:35:20 最后的快问快答 年终对话【站在2025年之外】: 《122. 朱啸虎现实主义故事的第三次连载:人工智能的盛筵与泡泡》 《124. 和戴雨森聊2026年预期、The Year of R、回调、我们如何下注》 《125. 与Altimeter合伙人Freda聊:下注OpenAI、Robinhood往事,美国资本坏小孩、算盘与泡沫》 【更多信息】 免责声明:本内容不作为投资建议。

    1h 43m
  3. DEC 16

    125. 与Altimeter合伙人Freda聊:下注OpenAI、Robinhood往事,美国资本坏小孩、算盘与泡沫

    在年终对话系列【站在2025年之外】的前两集节目中: 朱啸虎提出“三年不会有泡沫”,“泡沫论调纯属无稽之谈”; 戴雨森则预测,2026年是“Year of R”,将会是一个现实回归之年。 今天推出的是系列第三集节目,嘉宾来自一线的硅谷视角。 1个多月前,在2025年11月初,Sam Altman上了一档由美国基金Altimeter Capital创始人主持的播客节目,在主持人连续追问OpenAI如何为1.4万亿美元级别算力与基础设施承诺买单时,Sam称:“If you want to sell your shares, I’ll find you a buyer. Enough.”(“如果你想卖掉你的股份,我可以帮你找到买家。够了。”)——随后,AI板块整体出现波动,关于AI是否存在泡沫的讨论进一步升温。 我们今天的嘉宾Freda Duan就来自这个名叫Altimeter Capital的基金,她担任合伙人。 Altimeter是一个硅谷科技基金,横跨一二级。在一级市场投资案例有OpenAI、Anthropic、字节跳动等,在二级市场投资案例有NVIDIA、Snowflake、Robinhood等。 这集节目,Freda将深入分析美国这些明星公司,给他们的巨额投入算算账;她也从一线硅谷投资人的视角聊聊,美国资本的新秩序,他们眼中的坏小孩、反叛者、刺猬型和哪吒型创始人,以及泡沫。 2025年,让我们和AI共同进步! (录制于2025年11月) 03:30 Freda的自我介绍04:41 2020-2025每一年的硅谷关键词08:12 今天美股投资三条主线:AI + Re-industrilization(再工业化) + Digitization of Finance(金融产业创新),三条主线非常有意思,因为中间有很多联系10:20 美国投资人怎么看待中国市场?10:59 投资OpenAI12:14 给OpenAI的商业模式算算账(对比Netflix)16:45 OpenAI的收入四个支柱20:49 OpenAI的竞争23:32 Google的变化26:27 OpenAI的投资回报和IPO28:25 投资Anthropic31:25 Neo labs32:31 投资Robinhood40:29 硅谷资本喜欢乖小孩还是坏小孩?44:26 发现新物种(market prediction)46:07 自动驾驶和机器人55:25 “一级靠共识,二级靠非共识”57:13 美国不同基金看人的taste:刺猬型、反叛者、哪吒型创始人58:22 美国基金整体变化:更集中仓位下重注01:03:43 复盘硅谷2025年最重点方向01:09:51 这些AI公司的巨额收入从谁的口袋里来?01:14:11 巨额AI投资的投入产出比01:15:04 我们在AI bubble中吗?01:16:31 展望2026年 年终对话【站在2025年之外】: 《122. 朱啸虎现实主义故事的第三次连载:人工智能的盛筵与泡泡》 《124. 和戴雨森聊2026年预期、The Year of R、回调、我们如何下注》 【更多信息】 免责声明:本内容不作为投资建议。

    1h 24m
  4. DEC 13

    124. 年终对话【站在2025年之外】和戴雨森聊2026年预期、The Year of R、回调、我们如何下注

    不知不觉,我们来到了2025年的最后一个月,在北京的初雪之中,我们希望和大家一起做一个回顾与展望系列:【站在2025年之外】。 今天的嘉宾是真格基金管理合伙人戴雨森。 在122集节目中,朱啸虎声称,三年之内不会有泡沫,泡沫论调纯属无稽之谈,创业者2026年当全速前进。 雨森今天带来全新的看法。在他看来,2026年的关键词是“The Year of R”——回报与研究会再次变得重要。某种意义上,2026年将是一个现实与回调之年。 02:00 复盘2025年 02:00 从模型侧看进展: o1为代表的Thinking Time Scaling带来模型能力大幅提升 OpenAI、Anthropic、Google三家的旗舰模型追赶很紧,又各有特点,预期和叙事轮动 中国模型公司一年下来dominate开源生态 28:13 从应用侧看进展: 模型能力带来应用大爆发 应用是有护城河的,开始看到复杂应用在context、environment等层面产生壁垒 模型公司不能没有产品,大家都下场做最重要的第一方应用 中国AI应用出海表现不错 52:31 2025年真格出手了多少项目?20个左右 对比中美AI公司估值,中国公司对于全球来说有很高期权价值: Thinking Machines天使轮估值在没有产品的情况下已是中国AI公司估值总和 模型公司:Mistral 14b,Kimi 4b,Mistral自己都不怎么做Pre-train了,benchmark也就是和Kimi对标 应用公司:在美国Manus这样一家几个月做到100m ARR,几十个点gross margin,MoM20%增长的公司应该是3-5bn 01:03:15 预测2026年:The Year of R The Year of R:Return、Research、Remember、多模态Reasoning 01:03:15 Return: 为什么Return很重要? ROI,过去3年交易的是investment,因为大家被潜在的大return吸引,但现在随着I越来越大,大家对R的落地越来越关注,因为有R才能推动未来的I 为什么我们认为2026年大家会加大对return的关注? 模型:模型能力进步是这一波AI革命最本质的驱动力,但模型的能力进步正在放缓;美国头部labs的投入(Capex,人工等)大了很多,但无法阻止中国模型低成本跟进,Scaling Law不能简单理解成为投入大力出奇迹 应用:AI应用的叙事从无所不能威胁人类的AGI收敛到现在的三种主要商业模式,是从梦想回归现实的过程 订阅制是OpenAI现在的核心商业模式:超过5亿DAU后,全球知识工作者低垂的果实已摘得差不多了,面临Gemini等的激烈竞争,针对普通用户再提价会比较难 被寄予厚望的广告 + 电商:首先其中大部分是分Meta、Google、字节的存量蛋糕,对于Chatbot这样新形态的应用,探索广告和电商变现的速度不会很快广告 + 电商:首先大量是存量分蛋糕,然后对于新形态的应用,速度没那么快 AI Coding/图片视频生成等“基于用量付费”的生产力产品:Token用量会持续增长,但Token价格也在持续下降,用户只会为SOTA的智能按用量付费;原来值钱的任务会很快变得不值钱,所以AI替代了很多程序员,并不意味着AI能长期赚到这些程序员的工资 AI+行业的企业服务:这部分首先还在早期市场,规模有限,尝鲜的企业多,长期留存未必好,一个例子是微软Copilot的发展持续低于预期,大公司有数据安全、权限、隐私、工作流再造等一系列阻碍,使用新技术的速度比小公司和个人要慢不少 结论: 需要实现Satya说的GDP加速增长,把蛋糕做大才是真正的AGI,比如说AI创造新的药物,发现新的知识,真正解放人类注意力等 投入:现在美国基础设施建设慢,算力贬值快,人员工资高,巨额投入需要尽快看到回报 2025年底二级市场的预期也和2024年底完全不一样:去年底是市场预期不高,但我们看到ChatGPT增速很快,Coding、Agentic模型提升的确定性带来应用机会;现在是投入很大预期很高,但短期模型端看不到革命性的新能力,新的范式变化还在萌芽期 对创业者的启示? 负毛利烧钱一味追求增长的逻辑正在过去,需要有增长和毛利率并重的高质量增长。尤其是在美国非常宽松的融资环境可能会放缓,中美创投市场的价格鸿沟将会缩短 01:16:13 Research: new paradigm:AI历史上都是阶跃提高,需要有新的paradigm从新带来AI 能力的大增长,Ilya:scaling和research是交替的,现在又到了research的时候 目前看Online Learning、世界模型等都是重要的研究方向 neo labs:Thinking machines, SSI, Reflection, 到近期的Humans&,Periodic,Isara等) 因为做工程和产品和做研究是很不一样的,需要有宽松的环境,自由探索的文化,不设时间和KPI限制,大家希望neo labs能够探索和现在头部模型公司有差异化的新路径 new benchmark:现在的benchmark已经不能很好体现AI能力的区别,也不利于作为模型训练的目标,如何衡量一个在大多数领域超过人类表现的模型?姚顺雨指出的下半场已到,需要新的benchmark 对创业者的启示:要关注前沿研究的进展,研究的突破可能会解锁新的应用机会 01:21:00 Remember(Memory): Memory是AI应用关键的差异化,现在的Memory能力已经对ChatGPT留存产生了很大的提高 现在的Memory基本上还是基于retrieval的,没有做到真正的理解,这部分也是研究的兵家必争之地,如果做好会带来进一步的提高 Proactive Agent:有memory和context才能解锁Proactive Agent的机会,而Proactive Agent非常重要,因为人主动去用AI意图有限,AI主动为人服务才能有10x的场景机会 01:24:06 多模态: Visual Reasoning可能会有大的突破,人本质上是Pixel Machine,通过视觉输入理解世界,可以关注Zerobench这个Visual Reasoning Benchmark的表现提升,现在头部模型基本上还是不到10分 Nano Nanana意味着图片生成进入到Sonnet 3.5这样的可用时代,那么Cursor of Image-gen会是什么? GPT-3.5解锁了ChatGPT,Sonnet 3.5解锁了Cursor,Sonnet 3.7解锁了Manus,Nano Nanana/Veo会解锁什么应用的机会?在ChatGPT里面用Imagegen/Videogen显然不是很舒服的体验 语音是很重要的机会,更好更自然的交互,理解用户的Context,Plaud,Granola,Wispr flow/Typeless,Suno? 01:30:29 AI Bubble 从二级市场来讲,明年有可能出现大的回调,时间点可能是下半年 《Boom: Bubbles and the End of Stagnation》书中提到了两种泡沫:好的泡沫和坏的泡沫 如果预期是回调,明年的投资策略变化是什么? 二级会如何传导到一级? 怎么看朱啸虎说:“至少三年内看不到泡沫”、“他们的论点是无稽之谈”? “我个人现在是全部空仓的” 中美的估值差距预期会缩短 01:47:38 创业端变化和建议 基于Year of R的理论,对创业者的建议? AI时代怎么判断创始人?和互联网时代最大不同是什么? 创业像F1赛车 这两年miss什么项目没? 有哪些方向是因为AI出现带来增量的? Chatbot之外不错的交互是什么? 今年个人聊了150个项目,只投了2个 02:18:31 也谈谈人生 对个人的思考:今年的读书、思考与人生 对VC的思考:年轻的投资人要差异化 对普通人的思考:学会在一个智能充沛的世界里生活 02:29:50 最后的快问快答 最后一个问题:你提出Year of R,你也清空了二级市场股票,那么你会做空吗? 02:36:10 在这集节目的结束,我又放了一段和雨森在录节目之前的一场闲谈,比较随意。我们点评了一下那些时常会被议论起的AI公司。如果你觉得有意思,也可以继续听下去 02:36:30 OpenAI 02:46:38 Google(我并不觉得Genimi能阻止ChatGPT的增长,不觉得Google已经脱离危险) 03:06:36 Anthropic 03:11:05 Manus 03:19:47 Thinking Machines Lab、Safe Superintelligence Inc. 年终对话【站在2025年之外】: 《122. 朱啸虎现实主义故事的第三次连载:人工智能的盛筵与泡泡》 【更多信息】 免责声明:本内容不作为投资建议。

    3h 23m
  5. DEC 12

    123. 对ONE2X创始人王冠3小时访谈:生成系统、没有中间商赚差价、内容平台的权力分配

    今天的嘉宾是一位创业者,ONE2X联合创始人兼CEO王冠,他们现在的产品是AI视频生成器Medeo。 王冠是一名产品经理型的创业者,我和他认识了很长时间,那时他刚从Kimi离职出来创业,此前他是Kimi模型产品负责人。(哦对了,上一个Kimi产品离职来我们节目的是明超平。) 除了AI时代应用型公司怎么做产品、搭组织之外,由于我也是一名内容创作者,所以我也很好奇地与他讨论了许多关于新时代的内容平台,生成系统,AI、创作者与平台权力分配的话题。 2025年,期待我们和AI共同进步! 02:00 自我介绍、产品经理的经历和创业的开端 28:39 第一次听说“压缩即智能”,大为震撼 32:25 从月之暗面第一个离职创业的人 37:11 数据是智能的第一性原理,数据决定的智能的边界 42:23 数据三个阶段:公域数据>领域数据>产品内生数据 01:05:36 为什么选择视频生成方向? 01:26:15 AI如何重塑现有互联网格局? 01:30:50 广义AGI vs 狭义AGI 01:41:59 应用公司与模型公司的边界会变得模糊 02:01:44  AI时代的公司最终都是生成系统公司 02:25:49 权力重心向消费者端渗透,平台和创作者会如何演变? 02:38:11 生成系统和推荐系统的本质区别是?“没有中间商赚差价” 02:50:34 应该怎么做AI产品?北极星指标是智慧程度 03:05:45 一个远程办公的组织 03:20:18 未来的平台会从分销平台到产销平台 我们对AI应用型公司的过往访谈: 《95. 对Manus创始人肖弘的3小时访谈:世界不是线性外推,做博弈中的重要变量》 《103. Lovart创始人陈冕复盘应用创业这两年:这一刻就是好爽啊!!哈哈哈哈哈》 《101. 对YouWare创始人明超平3小时访谈:今天Agent像大猩猩刚拿起一根烧火棍》 本集中提到的其他节目: 《59. 和杨植麟聊大模型创业这一年:人类理想的增量、有概率的非共识和Sora》 《113. 和杨植麟时隔1年的对话:K2、Agentic LLM、缸中之脑和“站在无限的开端”》 《115. 对OpenAI姚顺雨3小时访谈:6年Agent研究、人与系统、吞噬的边界、既单极又多元的世界》

    3h 43m
  6. DEC 9

    122. 朱啸虎现实主义故事的第三次连载:人工智能的盛筵与泡泡

    2024年3月、2025年2月,我曾两次更新朱啸虎的中国现实主义AIGC故事,现在又过去了快1年时间。 站在2025年的尾巴上,AI产业有泡沫吗?泡沫会破吗?投资人对2026年的预期乐观吗?现在还是投资英伟达、OpenAI的好时候吗?——这里是朱啸虎现实主义故事的第三次连载。 2025年的最后一个月,还想和大家说那句:期待我们和AI共同进步! 01:40 越来越现实的OpenAI:你看Sam Altman就知道了,今年几乎不太提AGI了,对吧? 05:46 AI的超级入口之争:必然的就是超级入口之争,而且是日活之争、时长之争 08:34 三年内看不到泡沫:他们讲的这些论点,我觉得都是无稽之谈 13:24 你持有英伟达、OpenAI吗? 16:16 大家低估了DeepSeek:如果没有DeepSeek,可能人类的AI是被几个私有公司控制的 19:06 和共识错开15度,那性价比一下子拉出来了,是吧? 24:41 离开大厂三条马路,离开大厂三条马路,对吧? 30:21 大家知道,我投不投都是十分钟 38:30 今天的VC共识太集中了:每个项目上都是Club Deal(俱乐部交易),每个股份比例都很小,那怎么赚钱?——GP赚不了大钱,LP也很不开心 40:50 手机游戏打个《王者荣耀》,单独抽半小时、二十分钟就够了 《62. 你们要的朱啸虎,来了》 《90. 朱啸虎又来了:中国现实主义AIGC故事的1周年连载》 【更多信息】 本集由语言即世界工作室与微博财经联合呈现。 免责声明:本内容不作为投资建议。

    48 min
  7. NOV 28

    121. 对DeepMind谭捷的访谈:机器人、跨本体、世界模型、Gemini Robotics 1.5和Google

    今天的嘉宾是Google DeepMind机器人团队的高级研究科学家兼技术负责人谭捷,他的研究方向是将基础模型和深度强化学习方法应用于机器人领域。 中美在机器人领域一直存在两种叙事:市场普遍认为,中国在硬件上发展更快,美国在机器人大脑设计上更领先。 本期节目中,谭捷将带我们一窥硅谷视角,尤其是Google DeepMind视角下的机器人前沿叙事。 前不久,他们刚发布了新工作 “Gemini Robotics 1.5 brings AI agents into the physical world”(Gemini Robotics 1.5将AI Agents带入物理世界),我们也聊了聊他们的最新发现。 由于嘉宾工作环境的原因,会出现一定程度的中英夹杂,还大家多多包容和支持。 02:00 机器人是在真实世界里做图形学,图形学是在simulation里做机器人嘉宾小传:小时候喜欢打游戏,读博士读的计算机图形学 从图形学转型机器人的变轨 我在Google的第一篇论文《Sim-to-Real: Learning Agile Locomotion For Quadruped Robots》(从仿真到现实:学习四足机器人敏捷运动),开创了强化学习和seem to real在足式机器人上的应用 Paradigm Shift,过去十年第一个是强化学习,第二个是大语言模型 大语言模型对机器人的影响(大语言模型类似大脑,强化学习类似小脑) 13:06 机器人基座大模型到底是不是一个非常独立的学科?So far, not yet今天的机器人发展到什么阶段了? 从demo到真正落地,隔十年并不是一个非常夸张的事 从我的角度来说,我不得不承认,最近几年的机器人智能发展主要还是依赖于多模态大模型 但多模态模型缺什么呢?缺少robot action的输出 当你真正有一个generalist model(通用模型)的时候,specialized model(专有模型)就完全不能与之竞争 23:44 Robotics最大问题是数据,它在一个非常复杂的unstructured environment里,可以发生任何事情最大的问题还是数据问题 但是robotics是在一个非常复杂的unstructured environment(非结构化环境)里,可以发生任何事情 它需要极大量的、非常diverse(多元)的数据,但这些数据现在是不存在的 现在有很多startup叫data factory(数据工厂) 所谓“数据金字塔”包括哪些? ​27:52 Gemini Robotics 1.5:我们有一个方法叫motion transfer,这是独门秘诀Gemini Robotics 1.5最重要的发现是什么? 第一个是我们把“thinking”加入了VLA模型 第二个非常重要的突破是cross-embodiment transfer(跨具身迁移) Gemini Robotics 1.5的工作中,我们做了一个快慢模型的划分 它应该是个过渡的方式,因为现在受制于算力的限制、模型大小的限制 当你要一个unify model(统一模型)的时候,它必须非常大 Motion Transfer?It’s very secret 47:32 生成极大量仿真数据,是弥补它缺点的一个重要手段我们比较重视的一点还是数据、数据、数据 遥操作是非常难以获取的数据 我们会花更多的精力,比如利用simulation数据,利用human video(人类视频),利用YouTube上的一些数据,甚至利用模型生成的数据,比如VEO生成的一些数据 真实数据没有sim-to-real gap(仿真到现实差距),但是泛化性是由数据的coverage(覆盖)导致的,并不是因为它本身是真实数据还是虚拟数据 在不远的将来,传统物理模拟仿真会慢慢地被生成式模型的仿真所取代 我信仰的是scalable data 01:03:48 世界模型就是Vision-Language-Vision,vision和language in,生成下一帧的图像世界模型的定义是:如果给上前一帧,再给上机器人的动作,你可以预测下一帧 从另外一个角度,VEO它是一个视频生成模型,但是Genie它更像一个世界模型 当你在每一帧的时候,可以有一个输入来改变你的下一帧,那个感觉就是世界模型;但是如果它是一个已经生成好的、几秒钟的静态视频,那就不是 世界模型其实就是Vision-Language-Vision,vision和language in,它可以生成下一帧的图像 01:08:29 如果你有灵巧手,触觉就非常重要,之所以我前面觉得触觉不重要,是受限于当时的硬件如果你有灵巧手,触觉就非常重要 之所以我前面觉得触觉不重要,是因为它其实受限于当时的硬件 现在还在夹爪时代 在所有夹爪能完成的任务里,我还是觉得视觉可能可以解决95%的问题 在未来,人形机器人不会成为唯一的形态,但一定是个主流的形态 如果你的目标是solve AGI in the physical world(在物理世界实现AGI),那么我会非常聚焦于最终的形态是什么样子,其他的东西可能都是distraction(干扰) 01:17:35 一个有使命感的人,他不会容忍说“I’m on a wrong ship”这几年Google AI或者robotics的研究文化上有没有发生过变化? 不管是从promotion、performance review、incentive,还是各种各样的structure上,Google想创造一个环境,使得更多的人可以一起解决更大的事情 像Gemini Robotics,它更多是自上而下 我发觉好像国内不一定比我卷,我一周可能工作70到80个小时 真的,这个时代真的是等不起,不然别人都做出来了 AI有很多是数学,华人数学比较好 《106. 和王鹤聊,具身智能的学术边缘史和资本轰炸后的人为乱象》 《109. 机器人遭遇数据荒?与谢晨聊:仿真与合成数据、Meta天价收购和Alexandr Wang》 【更多信息】 本集的文字版本已发布,请搜索我们工作室的官方公众号: 语言即世界language is world

    2h 6m
  8. NOV 18

    120. 小鹏新上任的刘先明首次访谈:Language是毒药、拆掉L、简单即美、换帅、小鹏的AI转型

    今天的嘉宾是小鹏汽车自动驾驶中心负责人刘先明。 就在2025年10月9日,小鹏汽车突然宣布,原自动驾驶中心负责人李力耘将卸任,由世界基座模型负责人刘先明接任。 这意味着,刘先明成为小鹏在自动驾驶上,既谷俊丽、吴新宙(现英伟达自动驾驶中国团队负责人)、李力耘之后的第四任负责人。外界对他有诸多的好奇。 这是刘先明上任后首次接受专访。我们访谈的时间是2025年10月30日。这集节目,我们聊了聊他上任后拆掉大模型Language等关键技术决策,以及一家车企的AI战略转型。 02:16 人物小记曾在Meta、Cruise,从事机器学习与计算机视觉研究 恰好Cruise当时是第二名,加入第二名再逆袭的故事永远是令人兴奋的 加入小鹏汽车始末:2024年1月在美国办公室与何小鹏见面1小时 所亲历过的自动驾驶的技术stage 19:00 大模型拆Language我们的做法简单直接,把VLA的Language拆掉就完了 模型是机器,燃料是数据,一旦掺入Language会让效率变得极低 我们干脆把Language全都拆掉好了:输入V-L联合语料,直接输出Action “拆L”的过程、“简单就是美” 关键的数据问题 33:53 小鹏汽车向物理AI战略的转型为什么一家汽车公司的自动驾驶战略需要向AI战略转型? 转型的开端可能是去年小鹏汽车10周年 自动驾驶企业关心的是KPI、接管率,AI企业关注底层的技术指标,甚至risky的长期指标 刘先明的短期和长期KPI AI对于小鹏汽车意味着什么?“是乘法因子” 除了今年拆Language,之前还拆了激光雷达、规控规则、端到端 人工智能发展为什么一直在经历着拆拆拆的过程? 世界模型 明年对L4的规划 54:30 换帅的背后过去1年做过“头铁”的事情 看起来我性格很好,我也拍过桌子、发过火 “拆L”过程中遇到很大阻力,因为这很反paper里的常识 DeepSeek-OCR的反共识 现在关注的AI前沿方向 回应地平线创始人余凯的观点(“自动驾驶应该交给供应商”) 为什么国内自动驾驶还没有代际差? AI是车企下一阶段的重要赛点,做不好会被淘汰 何小鹏对于AI的关注时间、方式和最近的3次话题 制造企业和AI企业的基因问题 接下来,对于我的挑战 小鹏智驾一号位,每个人的历史使命 《70. 和何小鹏聊,FSD、“在血海游泳”、乱世中的英雄与狗熊》

    1h 49m
4.5
out of 5
33 Ratings

About

努力做中国最优质的科技、商业访谈。 张小珺:财经作者,写作中国商业深度报道,范围包括AI、科技巨头、风险投资和知名人物,也是播客《张小珺Jùn | 商业访谈录》制作人。 如果我的访谈能陪你走一段孤独的未知的路,也许有一天可以离目的地更近一点,我就很温暖:)

You Might Also Like