跨国串门儿计划

yikai

这是一档使用 AI 技术来将英文播客翻译为中文播客的节目~ 在翻译的同时,也能保留原有声线,用中文听懂外语播客!

  1. 2h ago

    #611.Chris Camillo:不靠估值不看财报,用“刷TikTok评论”把2万变成7000万

    📝 本期播客简介 本期我们克隆了:知名商业播客《My First Million》He Went From $20K to $70M Using a Strategy Anyone Can Learn 原内容更新时间:2025-12-22 本期嘉宾是个人投资者 Chris Camillo,主持人是 Shaan Puri。Chris 提出了一套完全反传统的投资方法,他称之为“社交套利”或“观察型投资”。他不看估值、不看市盈率、不做技术分析,而是通过观察现实世界和社交媒体上的行为变化,寻找市场尚未定价的信息差。 这期节目是一场对传统投资观念的彻底挑战。Chris 详细拆解了他从 2 万美元起步,在近 20 年里取得年化约 75% 回报的核心逻辑,并复盘了 Beacon Roofing、E.l.f. Cosmetics、Palantir 以及疫情期间的多笔经典交易。如果你对“信息套利”如何运作,以及一个普通人如何与华尔街巨头竞争感兴趣,这期内容会提供一套完全不同的思考框架。 👨‍⚕️ 本期嘉宾 Chris Camillo,个人投资者、作家、Dumb Money Live 联合主持人。他并非金融科班出身,却凭借一套自创的“社交套利”投资方法,在近二十年里将 2 万美元初始资金做到了约 7000 万美元的收益。他也是《Laughing at Wall Street》一书的作者,长期致力于向普通投资者普及观察型投资的理念。 ⏱️ 时间戳 开场与投资哲学 01:13 核心观点:做对一笔大交易就能成为前 1% 的投资者 01:20 投资中最重要的事:根本不看估值 01:26 不看市盈率,只看有没有新信息 01:29 大部分 alpha 来源:读 TikTok 评论 01:33 巴菲特读穆迪手册,Chris 刷 TikTok 评论 01:46 打破所有投资规则:试图跑赢市场、用杠杆、频繁交易 从车库拍卖到华尔街 02:32 2007 年从 2 万美元起步 02:42 社交套利投资的本质:观察型投资 02:47 寻找世界上任何变化:消费行为、文化、技术、天气、政治 03:17 最纯粹的形式下,不需要知道股价 03:39 在信息不对称时进场,在信息对称时离场 04:39 主持人要求多举几个例子 05:12 确认 2 万变七八千万的真实性 05:32 17 年年化回报率约 75% 05:48 童年从车库甩卖开始的套利训练 06:44 在旧货甩卖和遗产拍卖里做套利 07:05 遗产拍卖的盲区:年长女性不懂男性物品的价值 07:42 Snapple 冰茶案例:7-Eleven 货架位置变化 08:28 用看跌期权做空 Snapple,300 美元翻三倍 08:57 华尔街专业人士被噪音分心,看不见简单的事 经典交易案例拆解 12:25 寻找尚未被定价的变化 12:35 80 到 90 个以上成功案例 12:52 Beacon Roofing 案例:用 Google Trends 追踪屋顶维修搜索 13:18 华尔街用保险报告分析冰雹损失,但延迟五六周 14:11 某年冰雹季搜索峰值是往年三倍,重仓看涨期权 15:36 E.l.f. Cosmetics 案例:美妆博主 Jeffrey Star 的视频 15:59 股价从 7 美元涨到 170 美元 16:20 在 CVS 站一整天观察消费者抢购 16:47 打电话给华尔街分析师,对方问“Jeffrey Star 是谁?” 17:30 每晚花三到四小时刷 TikTok 评论区 与华尔街的竞争 17:48 被“严肃投资者”嘲笑:刷 TikTok vs 读财报 18:09 关键问题:你想跟谁竞争? 18:28 不想跟数学家比技术分析,也不想跟哈佛毕业生比财务分析 19:03 去竞争对手不愿意去的地方寻找优势 19:23 华尔街用交易数据,Chris 用对话数据 20:05 人们在买东西之前会先聊这件事 20:30 在销售数据证实之前,就能衡量兴趣深度 Twitter 热门话题与 Ticker Tags 21:10 Twitter 热门话题标签的诞生故事 22:10 关注变化量:平时没人提津巴布韦,突然大量提及 23:18 建立 Ticker Tags 平台,监测 150 万个词条 23:56 史莱姆案例:DIY 史莱姆流行 → Elmer's glue → Newell Brands 24:43 把平台卖给对冲基金和卖方银行 25:40 华尔街对对话数据几乎没兴趣 26:25 对冲基金缺乏能解读对话数据的二十多岁女性员工 Sphere 与 Palantir 交易 27:47 Sphere 的 Wizard of Oz 交易 27:57 2025 年最大盈利之一,靠读上线 48 小时的评论 28:07 Sphere 当年涨了 114% 28:28 其他散户开始数座位销售情况 29:08 公司宣布增加演出场次,上调盈利指引 35:23 Palantir 交易:30 美元时用难以置信的杠杆全仓杀入 36:12 大家根本没搞懂 Palantir 在 AI 浪潮里的位置 36:57 估值无关紧要,不看市盈率 37:24 Palantir 从 30 涨到 160 以上 第一个一百万与最大错误 29:30 赚到第一个一百万的时刻 30:15 写书《Laughing at Wall Street》 30:59 2 万美元变 200 万美元,三年一百倍回报 31:03 怀疑自己是不是统计偏差里的异常值 31:39 观察型投资的本质:比别人快一点发现重要信息 32:23 连续 18 年平均总资产回报率约 70% 32:49 操作层面:利润是取出还是再投入? 33:05 最大的错误:把公开市场盈利抽出来投进私募市场 34:30 彼得·林奇:“别剪掉鲜花去浇灌杂草” 疫情交易:一生一次的机会 39:14 疫情期间连续亏损,亏掉投资组合的 30% 到 40% 39:22 用谷歌翻译看中国医学报告,评估病毒严重性 39:54 市场一度不接受新冠的严重性 40:06 一生中最大交易之一,年化回报约 370% 40:23 市场触底两天后选出 14-15 家本不该下跌的公司 40:39 受益股清单:Peloton、Shopify、亚马逊、露营车世界、Schwinn 自行车 41:37 把做空收益全部投入这 15 家公司的杠杆头寸 42:12 那一年在市场上赚了 3000 万 QSR 惨败:亏掉三分之一本金 42:21 疫情前做了这辈子最糟糕的交易 42:31 一笔交易亏掉三分之一本金 43:05 QSR 公司:汉堡王、Popeyes、Tim Hortons 43:25 汉堡王有 Impossible Whopper,Popeyes 有脆皮鸡肉三明治 44:10 Tim Hortons 是最大业务板块,但信息难以提取 44:36 Tim Hortons 随机交出史上最差季度之一 45:07 教训:高确信度交易必须做全面研究,一点懒都偷不得 当前关注与未来展望 46:44 当前最看好的 AI 标的:Bloom Energy 46:58 Bloom Energy 给数据中心供电的方式不同 47:21 能让数据中心提前 6 到 12 个月上线 48:52 未来三到四年盈利基本逐年翻倍 49:12 不会公开交易记录,不希望别人跟单 49:56 主持人 Shaan 的投资方式:指数基金 + 科技股 + 天使投资 普通人能做这件事吗? 51:14 Shaan 质疑:“任何人都可以”和“每个人都能做到”有区别 53:24 Chris 回应:最大的问题是把钱分桶管理 54:14 你必须得有风险资本 54:37 每个人都应该有一个“大资金账户” 55:02 通过生活取舍攒风险资本:自己煮咖啡省的不是 5 美元,是 500 美元 56:07 高中毕业时是班里成绩最差的 25% 58:08 最大目标:激励地球上每一个人进入投资者阶层 58:13 解决财富差距的唯一办法 59:08 这条路对大多数人来说比创业更容易实现 01:00:33 即将进入富足时代,识别顺风和趋势同样适用于职业和创业选择 01:01:59 新公司:跟公务机行业有关 01:02:13 疫情那一年让我们看到未来:更多时间投入爱好和兴趣 🌟 精彩内容 💡 不看估值,只看有没有新信息 Chris 的投资体系完全抛弃了传统估值框架。他不关心市盈率、不关心股价,只关心是否存在市场尚未消化的新信息。当信息不对称消失,他就离场。 “我不看市盈率。我只看有没有新信息。” 💡 去竞争对手不愿意去的地方寻找优势 Chris 认为,普通人不可能在数学上赢过量化基金,也不可能在财务分析上赢过哈佛 MBA。但他发现了一个被华尔街忽视的数据金矿:人们在社交媒体上的日常对话。 “你得去你的竞争对手不愿意去的地方寻找优势。” 💡 人们在买东西之前会先聊这件事 这是 Chris 整套方法论的核心前提。交易数据是滞后的,而对话数据是实时的。在销售数据证实之前,你就能从评论和讨论中衡量出兴趣的深度。 “有几十亿人每天都在聊他们感兴趣的东西……你其实可以在销售数据证实之前,就衡量出人们对无数事物的兴趣深度。” 💡 估值对我来说无关紧要 在 Palantir 30 美元时,市场普遍认为它被严重高估。但 Chris 看到的是即将上线的新信息会吸引一整套全新的投资者。他押注的是信息扩散的过程,而非当前的估值水平。 “我只看一件事:Palantir 即将有一批新信息上线,会吸引一整套全新的投资者进来。” 💡 别剪掉鲜花去浇灌杂草 Chris 反思自己最大的错误:把年化 70% 的公开市场盈利,持续抽出来投进年化只有 10% 出头的早期风险投资。他用彼得·林奇的这句话来总结这个代价高昂的决策。 “别剪掉鲜花去浇灌杂草。” 💡 你省的不是 5 美元,是 500 美元 Chris 鼓励普通人通过生活取舍来积累“风险资本”。如果你相信自己的投资能力能让钱翻 100 倍,那么今天省下的每一块钱都相当于未来的 100 块。 “你会自己煮咖啡,因为你不是省了 5 美元,而是省了 500 美元。” 💡 我想激励地球上每一个人进入投资者阶层 Chris 做所有公开内容的终极使命不是卖课或募资,而是让更多人意识到:财富差距是可以解决的,办法就是让更多人开始投资。 “收入差距是没法解决的……但财富差距是可以解决的问题,办法就是让更多人进入投资者阶层。” ``` 🌐 播客信息补充 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight 在小宇宙查看该单集文稿

    1h 4m
  2. 9h ago

    #610.迪士尼公司:最成功将人类怀旧情怀变现的企业

    📝 本期播客简介 本期我们克隆了:知名商业播客《Acquired》在2026年6月的一期深度节目,由主持人Ben Gilbert和David Rosenthal共同呈现。他们以研究伟大公司的故事与策略而闻名,这一期他们终于将目光投向了娱乐巨头——华特·迪士尼公司。 原内容更新时间:2026-06-23 本期节目聚焦于华特·迪士尼本人执掌公司的时代,探讨了迪士尼如何从一个在堪萨斯城起步的小工作室,通过一系列看似疯狂的豪赌,最终建立起一个独一无二的商业飞轮。主持人Ben Gilbert和David Rosenthal深入迪士尼档案馆,翻阅了原始合同、员工年报和IPO招股书,还原了这家公司从“迪士尼兄弟卡通工作室”到全球娱乐霸主的惊人历程。 这不仅仅是一个关于动画和米老鼠的故事,更是一部关于技术创新、商业模式发明和创始人执念的史诗。你将听到同步声音技术如何让米老鼠一炮而红,第一部长篇动画电影《白雪公主》如何差点让公司破产,以及一个对模型火车的痴迷如何最终催生了迪士尼乐园。如果你对IP生意、飞轮效应,以及一个创始人如何一次次押上全部身家感兴趣,这期节目会给你带来极大的启发。 👨‍⚕️ 本期嘉宾 本期节目由《Acquired》的两位创始人Ben Gilbert和David Rosenthal主持。Ben Gilbert是Pioneer Square Labs的联合创始人,David Rosenthal是早期风险投资公司Worldly Partners的合伙人。他们以深度剖析伟大公司的商业策略而闻名,擅长将复杂的商业史讲得引人入胜。 ⏱️ 时间戳 开场与节目介绍 00:00 欢迎收听跨国串门计划 00:34 本期克隆节目介绍:Acquired 深度解读华特·迪士尼公司 02:02 欢迎来到 Acquired 2026 年春季篇 03:07 本期重点:迪士尼独一无二的商业成功 华特·迪士尼的早年生涯 06:35 1901年芝加哥:华特·迪士尼出生 07:02 屡屡碰壁的父亲与有钱的叔叔 07:43 马瑟林农场:华特一生中最重要的地方 08:57 玛吉婶婶的礼物:艺术与商业的第一次连接 10:34 务农失败,全家搬往堪萨斯城 11:34 一战期间去法国当救护车司机 11:56 1919年回到堪萨斯城,立志成为职业漫画家 第一次创业与动画的萌芽 12:43 遇见联合创始人 Ub Iwerks 13:14 成立 Iwerks Disney Commercial Artists 13:58 加入堪萨斯城幻灯片公司,爱上动画 16:36 自制动画短片 Laugh-O-Grams 18:37 1922年创立 Laugh-O-Gram Films,再次失败 20:44 破产后投奔好莱坞的哥哥罗伊 爱丽丝喜剧与迪士尼的正式起步 21:42 初到好莱坞的碰壁与假名片混进环球影城 22:56 重拾动画,寄出《爱丽丝梦游仙境》 24:43 与 Margaret Winkler 签下第一份大合同 26:32 1923年成立迪士尼兄弟卡通工作室 Oswald 的惨痛教训与米老鼠的诞生 27:23 1927年 Oswald the Lucky Rabbit 大获成功 30:03 工作室更名为华特迪士尼工作室 32:07 Mintz 的背叛:动画师被挖走,Oswald 版权归环球 34:19 一夜之间,企业价值归零 36:41 火车上的灵光一闪:米老鼠诞生 37:07 米老鼠诞生的两个版本 39:12 前两部米老鼠短片无人问津 声音技术带来的革命 39:41 灵感来源:第一部有声片《爵士歌手》 40:50 商业模式教训:利用新技术实现跨越 41:27 搞到 Cinephone 录音系统 41:42 第一次放映同步声音版米老鼠 43:15 《蒸汽船威利》的制作噩梦 44:29 1928年11月18日,《蒸汽船威利》首映 45:07 发行商的拒绝与“救生圈”品牌的教训 46:58 Pat Powers 挖走 Ub Iwerks,但这次迪士尼赢了 知识产权飞轮的诞生 48:03 米老鼠俱乐部的意外起源 50:46 1930年推出每日连载米奇漫画 52:04 周边与消费品:从300美元的授权开始 53:35 Kay Kamen 接手,周边业务爆发 57:07 米老鼠手表卖出250万只 57:45 一种全新的商业模式诞生 58:18 迪士尼飞轮的诞生 58:25 “飞轮”其实是个误称 59:28 飞轮模式为何如此有效 《白雪公主》:迪士尼的蠢事 01:06:25 创作好莱坞第一部动画长片的疯狂想法 01:07:41 外号“迪士尼的蠢事” 01:08:12 罗伊试图劝阻:这会搞垮整个工作室 01:08:50 动画电影制作流程详解 01:22:32 三年时间、150万美元的制作费 01:23:22 两百万张草稿、二十五万张成品画稿 01:24:47 1937年12月21日首映 01:24:56 奥斯卡专门为白雪公主设立特别奖 01:27:32 常见误解:白雪公主的利润去哪了 01:27:47 电影价值链拆解:钱从哪里来? 伯班克新工作室与二战危机 01:32:24 建造动画师天堂:伯班克新园区 01:33:33 华特的乌托邦梦想 01:37:09 园区建设成本300万美元 01:37:39 同时批准《木偶奇遇记》《小鹿斑比》《幻想曲》 01:38:58 《木偶奇遇记》惨败,欧洲市场消失 01:39:51 1940年首次出售公司股权(IPO) 01:41:45 现金危机与员工动荡 01:42:51 1941年大罢工:华特最黑暗的时刻 01:45:06 华特那场灾难性的三小时演讲 01:46:43 华特逃往拉丁美洲,罗伊解决罢工 01:47:51 工作室从此再也没能完全恢复 二战与迪士尼金库 01:51:45 珍珠港事件,美军进驻工作室 01:53:54 为政府制作宣传片,唐老鸭冲在最前面 01:55:44 1944年重新上映《白雪公主》,迪士尼金库诞生 01:57:02 华特的金句:七年一代新观众 战后低谷与《灰姑娘》的反弹 01:59:52 战争结束,政府收入断了 02:00:21 尝试合集、真人动画结合,都不算成功 02:00:58 市场竞争出现:华纳《乐一通》、米高梅《猫和老鼠》 02:02:35 华特下最后通牒:不回到动画就卖公司 02:03:02 1950年《灰姑娘》上映,八年来第一部动画长片 02:04:49 口碑和商业上的巨大成功 华特的新痴迷:火车与微缩模型 02:06:49 华特在玩火车 02:07:48 对火车和小镇美国的深重情结 02:09:18 砸5万美元在自家后院建铁路 02:10:33 历史学家的评价:一个我可以重新掌控的世界 迪士尼乐园的诞生 02:10:59 从火车痴迷到迪士尼乐园 02:11:37 最初想法:16英亩地,150万美元 02:12:57 罗伊和董事会毫无热情 02:13:29 华特成立私人公司 WED Enterprises 02:15:07 伯班克地太小,市议会否决 02:16:01 雇 SRI 斯坦福研究所寻找完美地点 02:17:37 需要一大笔钱,华特回去找公司 为乐园融资:拥抱电视 02:24:38 华特做了一件没人敢做的事:拥抱电视 02:26:09 ABC 排第三,急需内容突围 02:29:09 ABC 投50万股权,担保450万贷款 02:30:08 合同定死开园日期:1955年7月17日 02:30:32 电视节目火得一塌糊涂 02:32:01 Davy Crockett 引爆全美 02:32:26 浣熊皮帽卖出1000万顶,主题曲冲上排行榜第一 迪士尼乐园开园 02:36:27 1955年7月17日,迪士尼乐园开园 02:36:46 乐园的开发:Herb Ryman 一个周末画出全景图 02:38:28 建乐园只用了11个月 02:40:37 筑起20英尺高土堤,把乐园与外界隔开 02:42:29 65家企业赞助商 02:44:00 开园日:混乱中的巨大成功 02:45:15 ABC 22台摄像机直播,8300万人收看 02:46:38 第一年游客量360万 迪士尼乐园的复杂股权 02:50:24 华特个人公司 WED 拥有铁路和单轨列车 02:52:52 1965年 Imagineering 被整合进公司 02:53:35 直到1982年,公司才完全买回所有权益 飞轮的第五个要素 02:54:40 电视和乐园给飞轮加上第五个要素 02:56:44 1957年纽交所上市 02:57:23 《华尔街日报》头版文章与著名的飞轮图 02:58:50 罗伊的金句:整合是我们这里的关键词 02:59:26 1958年就在为四年后才上映的《睡美人》造势 Epcot:华特最后的狂想 03:07:19 华特觉得太稳了,又想全押 03:07:50 下一个梦想:建一整座城市 03:09:12 1964年纽约世博会作为秘密试验场 03:11:23 Epcot 的疯狂构想:穹顶城市、单轨列车、地下隧道 03:12:40 1965年宣布佛罗里达项目,买了27000英亩地 03:13:32 华特生前倒数第二次公开露面 03:15:07 1966年12月15日,华特·迪士尼去世 华特去世后的迪士尼 03:16:26 罗伊将项目改名为华特迪士尼世界 03:17:37 花4亿美元建魔法王国,没有负债 03:19:15 华特去世后,公司停止了豪赌 03:19:38 电影业务衰落,全靠主题公园撑着 03:22:23 美国的神话制造转移了:卢卡斯、斯皮尔伯格 03:24:16 1984年,企业狙击手盯上迪士尼 03:25:06 三个外来者即将上演史上最伟大的翻身仗 分析与总结 03:25:54 核心问题:为什么没人能复制迪士尼的IP飞轮? 03:27:15 动画是极其关键的 03:32:37 七种力量框架分析 03:36:04 Ben 的精髓总结:一批有凝聚力的IP 03:36:57 David 的精髓总结:艺术与商业的结合 🌟 精彩内容 💡 艺术与商业的第一次连接 在马瑟林农场,六七岁的华特为邻居画了一匹马,得到了五分钱报酬。这件事在他心里种下了一颗种子:画画不仅能带来快乐,还能挣钱。这种将艺术与商业结合的本能,后来驱动了他的一生,也驱动了整个迪士尼公司。 "他想,我的爱好,我的画,居然能挣钱。" 💡 动画行业太新了,我很快就能做到世界顶尖 华特很早就意识到,动画是一个全新的艺术形式,竞争远不如传统绘画激烈。这种对“蓝海市场”的直觉,让他和Ub Iwerks敢于在堪萨斯城这个小地方挑战纽约的动画巨头。 "因为整个动画行业太新了,他觉得自己很快就能做到世界顶尖水平。" 💡 从惨痛教训中诞生的品牌意识 当发行商拿着Lifesavers糖果对华特说“公众不认识你的老鼠”时,华特虽然愤怒,但他接住了这个教训。从此,每一部米老鼠短片都醒目地打上“华特·迪士尼出品”,把自己做成了动画界的“救生圈”品牌。 "

    3h 46m
  3. 22h ago

    #609.挑战英伟达:Etched AI推理芯片如何让token成本暴跌

    📝 本期播客简介 本期我们克隆了:知名商业与投资播客《Invest Like The Best》Inside the $5B Company Building the Hardware to Make AI Cheap for Everyone 原内容更新时间:2026-06-30 本期嘉宾是AI芯片公司Etched的两位联合创始人Gavin Uberti和Robert Wachen。三年前,他们还是两个试图说服怀疑者的哈佛辍学生,声称自己能造出比全球最大半导体公司更好的推理硬件。今天,Etched已融资8亿美元,签下超过10亿美元的客户合同,并成功流片了一款为后ChatGPT时代设计的芯片。 这期节目不只是Etched的创业故事,更是一场关于AI推理市场未来的深度对谈。Gavin和Robert详细拆解了他们的核心技术路线——低电压推理和集群级内存,解释了为什么推理将成为全球最大的市场,以及他们为何选择造整机柜而非仅仅一颗芯片。如果你正在思考AI硬件的未来、创业公司如何挑战巨头、以及如何构建一家能持续产出顶尖产品的公司,这期会提供大量一手经验和高密度判断。 👨‍⚕️ 本期嘉宾 Gavin Uberti和Robert Wachen,AI芯片公司Etched的联合创始人。两人从哈佛退学,在短短几年内筹集了8亿美元,试图打造比行业巨头更高效的推理硬件。Gavin曾在高中时战胜骨癌,这段经历深刻塑造了他对生命和事业的看法;Robert从17岁起就在AI芯片公司做kernel开发,亲历了多家公司被收购的过程。他们带领Etched成为目前唯一一家既自己造芯片又自己造整机架的创业公司。 ⏱️ 时间戳 开场与创业起点 01:15 推理将是全球最大的市场 01:56 三年前没人相信两个21岁的年轻人能做成芯片公司 03:03 需要一定程度的“天真”才能挑战巨头 04:52 两类人:凭经验否定 vs 愿意深入验证 06:59 不只是造芯片,而是做完整的推理解决方案 核心技术赌注 07:19 推理的两个关键环节:pre-fill和decode 08:29 认真研究过各种架构,发现天下没有免费的午餐 09:08 真正重要的指标:实际负载下的flops利用率 10:04 登纳德缩放定律与低电压推理的突破 11:27 decode完全是一场内存游戏 12:07 集群级内存:自建定制互联协议栈 12:55 这些架构都是在ChatGPT出现之前构建的 为什么推理如此重要 13:51 归根结底是生产力问题 14:35 今天让十亿人同时使用这些模型根本不可能 16:11 token还没有像iPhone那样的规模经济 17:03 有些产品如果太慢,根本没法用 创始人的个人故事 18:14 Gavin的高中经历:骨癌四期,存活率不到30% 19:29 GPT-4V一眼认出肿瘤,而医生花了六个月 20:44 运营创业孵化器,发现所有公司都在烧钱买算力 21:59 Robert的第一份工作:17岁做kernel开发 23:03 高中机器人比赛:两人团队拿下世界纪录 构建公司的哲学 24:26 赢是靠交付产品,不是靠最好的外联 25:10 最好的供应商就是没有供应商 27:10 人才理念:寻找“传奇人物” 27:47 第一次聊就说“好”的人很少,聊到第二十次之后说“好”的人很多 29:00 Brian在英伟达创立了HGX和DGX团队,占其收入大头 29:36 “肩上有chip,才能把chip装进数据中心” 30:48 自我筛选:机会主义者不会来我们这儿工作 31:16 你得有点疯才愿意加入我们公司 速度与风险 32:51 供应商进度落后,派十几名工程师飞班加罗尔住六个月 33:57 24小时不间断开发,两边各跑12小时接力 35:03 两个关键技巧:找到优秀的人,快速做决策 36:24 最大的风险就是不承担风险 36:56 “预取”概念:芯片回来前把所有能做的事都做完 37:59 从拿到硅片到跑通推理只用了40天,行业标杆是10个月 供应链与生态 39:39 供应链最被低估的一点:必须去合作 39:59 台积电真正的价值全在服务上 40:39 电力供应和通电时间是关键因素 42:02 客户关心的是:在给定功耗下能服务多少用户 43:01 我们的硬件能在同等交互性下带来一个数量级的并发提升 模型与未来 44:39 用wall clock time思考:一年任务缩到一个月 45:51 底层还有巨大的空间:chip间延迟从4000纳秒到几纳秒 47:24 最好的kernel仍然是人跟AI协作写出来的 48:54 “选择战场”:不去做任意图编译器 49:49 垂直整合的边界:生产即产品 50:49 谁生产的token最多,谁就会成为世界上最有价值的公司 融资的至暗时刻 57:01 2024年初,银行里只有1500万美元,需要1亿 57:51 开始琢磨回哈佛复学有多难 58:18 硅谷所有主流投资机构当场就拒了 59:43 深夜坐在办公室里,怎么算账都算不平 01:00:59 那就是我们的A轮:1.03亿美元软承诺 不可能问题的解决 53:43 chip回来后发现跨时钟域反压逻辑出问题 54:16 需要把时钟信号对齐到50皮秒以内 54:23 有人直接辞职了,说“祝你们好运” 55:08 黑暗的两周,但把它做出来了 01:07:43 第一片晶圆测试,全是红色方块 01:08:32 “谜题开始了” 下一代与终极愿景 01:09:24 做三件事:最多flops、最低延迟、尽可能多生产 01:10:51 核心就是简单:去掉大量部件 01:12:46 机器思考的方式跟人不一样 01:17:00 全球正在走向推理占全球GDP大头的时代 01:17:17 今年是劳动力以人类为主的倒数第二年 01:19:04 绝对会看到单个数据中心价值一万亿美元 收尾 01:21:23 别人为你做过的最善意的一件事 🌟 精彩内容 💡 “谁生产的token最多,谁就会成为世界上最有价值的公司” Gavin和Robert对推理市场的判断极其清晰:推理将成为全球最大的市场,而token就是新时代的石油。他们所有的决策都围绕一个问题——怎么把最多的token产能上线。这个判断驱动了他们从芯片到整机柜的垂直整合策略。 “我们知道inference会是全球最大的市场。谁产出的token最多,谁就会是全球最有价值的公司。” 💡 “你得有点疯才愿意加入我们公司” Etched的人才筛选机制几乎是自我运转的。两个24岁的创始人、没流片过的产品、要挑战全球最大公司、设计方案不是好10%而是好10倍——这些条件天然筛掉了机会主义者,留下的都是真正相信这件事的人。 “你得说服家人搬到圣何塞,加入一家半导体公司,老板是两个现在24岁的年轻人,要跟全球最大的公司对着干,而且他们拿出的设计方案不是说好个10%,而是要好10倍。” 💡 “最大的风险就是不承担风险” 在AI推理市场每天超过10亿美元收入的背景下,每推迟一天出货就等于把大量机会扔在桌上。Etched的“预取”哲学就是把所有不需要芯片的事都在芯片回来前做完——从软件栈到机柜部署到FPGA集群验证,这让他们的bring-up时间从行业标杆的10个月压缩到40天。 “这个领域每天有超过10亿美元的收入,其中很大一部分来自inference。所以我们每推迟一天出货,就等于把大量机会白白扔在桌上。” 💡 “最好的供应商就是没有供应商” Etched是唯一一家既自己造芯片又自己造整机架的创业公司。他们从芯片到电路板、冷板、互联甚至生产环节都尽可能在内部完成,这既是为了性能,也是为了速度。这种极致的垂直整合让他们能并行推进所有事情。 “最好的零件就是没有零件。我觉得对我们来说,最好的供应商就是没有供应商。” 💡 “先假设它是可能的” 面对看似无解的技术难题——比如需要把时钟信号对齐到50皮秒以内——Etched的默认姿态是假设问题可解,然后倒推解决方案。有人辞职了,但留下的人找到了用漂移机制锁定相位的方法。这种心态贯穿了他们的整个创业历程。 “遇到这种问题,第一步是,好,我们先假设问题可解。那怎么解?” 💡 “生产即产品” Gavin和Robert对业务边界的判断非常清晰:除非为了达到巨大规模非做不可,否则不去碰技术栈的其他环节。他们不做数据中心、不做模型,但做整机柜、做CM模式,因为不上规模不行。这种聚焦让他们把精力押在最关键的赌注上。 “我们所有的决策,都围绕一个问题:怎么把最多的token产能上线?” 💡 “今年是劳动力以人类为主的倒数第二年” Gavin做出了一个大胆预测:到2027年,做知识工作的Agent数量将超过人类。他设想了一个世界,一个国家的能源大部分流向推理数据中心,而数据中心的能效决定了他们能有多少Agent,进而决定了劳动力规模。 “我认为今年是劳动力以人类为主的倒数第二年。我觉得到2027年,你会看到做知识工作的Agent数量超过人类。” ``` 🌐 播客信息补充 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight 在小宇宙查看该单集文稿

    1h 23m
  4. 23h ago

    #608.3Blue1Brown创始人:AI攻克数学前沿,人类创造力与科学发现将何去何从

    📝 本期播客简介 本期我们克隆了:知名播客《Dwarkesh Podcast》在 Jul 1, 2026 的一期深度对谈 Grant Sanderson (@3Blue1Brown) – AI and the future of math Grant Sanderson 是广受欢迎的数学科普频道 3Blue1Brown 的创始人,他正在制作一个记录人工智能在数学领域进展的新项目。这期节目主要探讨了人工智能在数学前沿的突破速度,以及这些进展对我们理解创造力、科学发现和未来工作意味着什么。 节目从 AI 在国际数学奥林匹克竞赛(IMO)上的表现切入,深入讨论了 AI 解决千禧年大奖难题的可能性,以及这背后更深层的问题:当 AI 能证明定理时,人类的角色是什么?Grant 通过伽罗瓦和群论的历史案例,精彩地阐述了数学中“提出好问题”和“创造新定义”的价值,这些往往比证明定理本身更重要,却难以被量化为基准测试。 对话还延伸到 AI 在写作、编程、学习等领域的局限性,以及数学家在 AI 时代可能转向“策展人”角色的未来图景。如果你对 AI 的能力边界、科学发现的本质、以及未来人类与 AI 的协作方式感兴趣,这期节目会提供极具深度的思考。 👨‍⚕️ 本期嘉宾 Grant Sanderson,全球知名数学科普频道 3Blue1Brown 的创始人。他以精美的可视化动画和清晰的讲解风格,将复杂的数学概念变得直观易懂,影响了无数数学学习者和爱好者。他正在制作一个记录 AI 在数学领域进展的新项目,深度关注人工智能如何改变数学研究的方式。 ⏱️ 时间戳 开场与AI在数学上的突破 01:10 嘉宾介绍与AI在数学领域的进展速度 01:34 三年前的预言:IMO金牌不等于AGI 02:23 为什么IMO题目其实是可以训练的 02:54 AI进展的“尖峰”特性:数学正好在尖峰上 03:11 AI在几何题上秒杀,组合题上挣扎 千禧年难题与AI的能力边界 03:55 解决千禧年难题是否意味着能胜任白领工作? 04:20 跨领域知识连接的可能性 04:55 蒙哥马利与戴森的故事:偶然的跨领域连接 06:26 费马大定理的解法:需要构建理论的大山 07:16 如果AI能构建理论大山,智能水平就太高了 下一个基准:提出猜想与创造定义 07:50 移动球门:IMO金牌没有带来变革性影响 08:50 下一个基准:提出有趣的问题和新的概念化方式 09:28 好的数学家证明定理,伟大的数学家提出猜想 10:05 如何量化“提出好猜想”?这很难做成基准 11:05 数学家们对AI的语气在过去一年发生了变化 伽罗瓦、群论与可验证奖励的困境 12:17 提出新思考方式的价值:爱因斯坦与广义相对论 13:13 伽罗瓦与群论:验证循环长达100年 14:22 为什么伽罗瓦理论是完美的例子 14:41 五次方程求根公式的历史背景 15:56 拉格朗日:找到正确的提问方式 17:41 伽罗瓦的悲剧人生:在监狱里写下革命性想法 18:54 当时的学术界拒绝了伽罗瓦的论文 19:49 伽罗瓦去世后,想法花了40年才被认可 21:24 历史可能走向另一种可能:伽罗瓦被遗忘 22:01 群论的应用:盖尔曼预言夸克的存在 压缩即智能:如何衡量“优雅” 22:25 不以解决问题为标准,如何衡量进步? 22:51 “压缩即智能”:表达越简洁越智能 23:14 黎曼猜想解法的第三种可能:纯粹靠硬算 23:36 用柯尔莫哥洛夫复杂度量化“优雅” 23:55 人类一直在做这件事,AI迟早也会做到 AI会否让数学变得不可理解? 24:48 担心AI证明黎曼猜想但人类不理解 25:18 单位距离猜想反例:AI的推理是可理解的 25:43 解黎曼猜想的三种方式:连接、理论构建、蛮力 26:48 ABC猜想尝试性证明:异类的数学大山 27:31 David Bessis:《定理经济的衰落》 28:36 知道解是对的,会帮助人类理解 证明与解释的区别 29:16 Timothy Chow:“未解决的阐述性问题” 30:17 证明和解释之间有区别 30:51 概念化与想法本身真的有区别吗? 31:16 提出新颖洞见的人往往也是优秀的阐释者 32:08 AI可能也会擅长解释和提炼 数学家的未来:策展人角色 32:34 Grant会一直做现在做的事直到死 33:10 数学家最终会变得更像美术馆策展人 33:55 Grant的角色可能转向策展方向 34:27 人类音乐家永远有一席之地,数学也一样 AI作为超级连接器 34:37 AI刚跨过连接想法的门槛,下一步是什么? 35:16 广义相对论就是把黎曼几何和狭义相对论连接起来 35:41 朗兰兹纲领:一种研究精神 36:25 AI成为超级连接器的可能性 37:25 为什么自回归模型难以建立跨领域连接? 39:20 从数据角度思考:设计环境激励连接能力 并行化与数字心智的优势 40:44 AI的关键优势:并行化和可扩展性 41:33 数字心智天生具备的优势 41:57 设计Agent之间的“偶然对话” 42:37 故意给不同Agent不同的上下文 43:03 IMO钓鱼题:需要跳出上下文才能解 44:24 系统性刷新思维:数字心智的优势 熵坍缩与系统性增加熵 44:59 人们对AI的担忧:熵坍缩 45:13 AI的关键优势:系统性尝试否定和证明 45:46 爱因斯坦的偏见:在prompt层面增加熵 46:34 科学不存在唯一正确的启发式方法 可反复尝试性比形式化更重要 47:20 为什么AI在计算机使用方面进展慢? 47:38 可反复尝试性是关键,不只是可验证性 49:19 Lean对于AI目前的进步水平没那么重要 49:57 可反复尝试性比形式化更重要 50:34 Lean的未充分探索的好处:无限探索 52:08 数学独有的特性:按下启动键,十年后回来看 自然语言验证与过程监督 52:48 Karpathy的AutoResearch想法 53:32 人类数学研究就是一个不断扩展的图书馆 54:17 穷举搜索所有可能的代数系统 55:28 DeepSeek数学模型:自然语言验证的可行性 56:16 数学比其他领域更可能信任自然语言验证器 57:26 Lean的另一个意义:消除错误率 写作为什么比数学和编程更难 58:42 写作进展慢的原因:不擅长评判 59:17 写作不像代码和数学那样模块化 59:59 为什么代码能从“能用”进步到“干净”,写作不行? 01:00:58 写作的关键在于洞察力 01:02:27 不可预测性是写作的核心 心智理论与AI的局限性 01:02:38 AI在构建人的心智模型方面特别差 01:02:45 教LLM写间隔重复提示卡的实验 01:03:19 写一张好卡片需要投射人的心智状态 01:04:15 肉毒杆菌实验:理解表情需要模仿 01:05:39 模型没有面部肌肉,像外星人在尝试共情 如何用LLM学习 01:07:17 用LLM学习的建议 01:07:58 “跟谁学”比“学什么”更重要 01:08:52 LLM的解释像维基百科,缺乏刻意构建的动机 01:09:14 把LLM当超级加强版Google用 01:10:14 最有收获的学习经历:先有人搭好枝干 01:11:17 LLM不擅长重新框定你的问题 给学生的建议 01:12:48 对想成为数学家的学生的建议 01:13:20 搞清楚钱从哪来、你创造什么价值 01:15:18 数学家的社会角色变化不大 01:16:03 教学是后AGI时代最稳定的工作之一 01:17:08 在疯狂的世界里,数学是AI走得最远的领域 数学加速的实际应用 01:18:03 AI做出来的数学到底有没有用? 01:18:39 数学进展不均衡:代数数论vs偏微分方程 01:18:53 波音的例子:数学洞见省了几十亿美元 01:19:46 数学巨大突破不太可能立刻转化为经济突破 01:21:09 数学已经变得完全没用了吗? 🌟 精彩内容 💡 “好的数学家证明定理,伟大的数学家提出猜想,最伟大的数学家创造定义” Grant引用了这句名言来阐述数学创造力的层次。在AI时代,提出好问题和创造新概念的能力可能比证明定理更重要,但这些恰恰是最难被量化为基准测试的能力。 “好的数学家证明定理,伟大的数学家提出猜想,而最伟大的数学家创造定义。” 💡 伽罗瓦理论:验证循环长达100年 Grant通过伽罗瓦和群论的历史,精彩地说明了数学中最有价值的洞见往往需要极长时间才能被认可。伽罗瓦在监狱里写下的革命性想法,当时被学术界拒绝,花了40年才被理解,而群论在物理学中的应用更是等到20世纪才出现。这对AI的“可验证奖励”训练范式提出了深刻挑战。 “你确实有这整整100年的时间,一个想法流经许多不同人的头脑,最后才沉淀成数学界公认的好东西。” 💡 数学独有的特性:按下启动键,十年后回来看 Grant指出,有了Lean这样的形式化工具,AI可以在数学领域实现完全自动化的无限探索,不需要人类检查,只管砸算力。这是其他领域都不具备的特性。 “这是数学独有的、其他领域都没有的特性。你可以按下启动键,然后只管往里砸算力,十年后再回来看,问它‘你有什么成果?’” 💡 数字心智的优势:系统性刷新思维 Grant和Dwarkesh讨论了AI可以通过给不同Agent不同的上下文和偏见,系统性地增加“熵”,避免陷入单一思维模式。这与人类需要“跳出上下文”才能解决某些问题的特性形成对比。 “有时候,你在其他领域做人类研究时,也会想要同样的东西,有时候就是需要能够说,刷新你的思维,用一个完全不同的方式来切入。” 💡 写作的关键在于不可预测的洞察力 Grant深入分析了为什么AI在写作上表现不佳。写作不只是对已有想法的蒸馏,关键在于在正确的节点做出不可预测的举动,那才是更有洞察力的地方。这与自回归模型的生成方式存在根本矛盾。 “要写出好东西,就必须包含某种不可预测的元素……在哪个正确的节点做出一个不可预测

    1h 22m
  5. 1d ago

    #607.SemiAnalysis创始人:AI的真正100倍杠杆,藏在软硬件协同设计里

    📝 本期播客简介 本期我们克隆了:红杉资本旗下播客的深度对谈《Why Hardware-Software Co-Design Is AI's Real 100x: Dylan Patel of SemiAnalysis》 原内容更新时间:2026-06-30 本期嘉宾是知名半导体与AI研究机构SemiAnalysis的创始人Dylan Patel,主持人是红杉资本的合伙人Sean。Dylan从硬件论坛版主起步,如今带领团队为全球机构提供最前沿的芯片与人工智能产业分析。这期节目,他们撕开了AI领域一个常被忽视的关键杠杆——硬件与软件的协同设计,并深入探讨了这种深度整合如何带来远超单纯硬件迭代的效率飞跃。 Dylan在节目中抛出了一个核心论断:AI最大的收益不是来自更快的芯片,而是当你把模型架构、底层内核和芯片设计三层协同优化时,原本这里2倍、那里2倍的提升,会直接变成100倍。他用DeepSeek举例,解释了为什么其专家模块的形状是为英伟达Hopper架构量身定制的,也因此跑在TPU上表现拉胯。这引出了一个更深的洞察:所谓的CUDA护城河,其实从来都不是CUDA本身,而是下游模型对英伟达硬件的深度协同优化。 对话还覆盖了InferenceX的活体基准测试、太空数据中心的非共识判断、AI推理市场的终局规模,以及为什么新云厂商能在超大规模云厂商的夹缝中野蛮生长。如果你关心AI基础设施、芯片战争、模型架构演进和背后的经济账,这期节目会给你一个全新的分析框架。 👨‍⚕️ 本期嘉宾 Dylan Patel,SemiAnalysis创始人。SemiAnalysis是全球最具影响力的半导体与AI产业研究机构之一,客户涵盖顶级对冲基金、科技巨头和各国政府。Dylan从12岁起泡硬件论坛,后来成为Reddit多个科技板块的版主,大学毕业后做过量化分析师,2020年在个人崩溃和全球疫情中创办了SemiAnalysis。他以能把技术细节和经济账无缝结合的分析风格著称,团队约90人,一半是覆盖半导体供应链的工程师,一半是前对冲基金分析师。 ⏱️ 时间戳 开场与SemiAnalysis的诞生 00:00 本期克隆节目介绍 01:18 SemiAnalysis内部的“打架”文化:工程师vs金融人 01:56 主持人Sean介绍Dylan 03:01 Dylan的成长背景:汽车旅馆、加油站与第一个“神经网络” 04:31 八岁生日与Xbox 360死亡红环:硬件的潘多拉魔盒 05:36 12岁成为Reddit版主,开始追踪芯片行业 07:50 创办SemiAnalysis的契机:奖金被坑、祖母去世、疫情崩溃 10:05 24岁生日当天,用真名发布SemiAnalysis 10:37 开着卡车跑遍全美国家公园,在30美元汽车旅馆里做研究 供应链、会议与学习曲线 12:13 行业展会vs学术会议:NeurIPS与日本化学会议的天壤之别 13:17 SPIE先进光刻会议:第一次去90%都听不懂 14:58 一种化学品烧毁,内存价格翻三倍的恐怖故事 推理市场与InferenceX 15:35 推理将是地球上最大的市场,比石油大得多 16:13 为什么启动InferenceX:静态基准测试已经死了 17:57 生态支持:5000万美元捐赠硬件,15种芯片类型 19:18 帕累托最优曲线:别拿次优配置跟最优配置比 20:07 吞吐量与交互性曲线:AI基础设施的下游总开关 21:11 成本如何纳入曲线:批量100用户每秒10 token vs 单用户每秒500 token 太空数据中心与电力预测 22:18 非共识判断:三到五年内太空数据中心没有实质影响 23:03 二十年尺度上,绝大部分算力会搬到太空 23:35 到2030年,仅OpenAI和Anthropic就会超过100吉瓦 23:47 到2040年,推理算力将进入太瓦级别 每瓦智能与三层协同优化 24:06 每瓦智能一直在提升吗?成本已降60倍,每瓦智能提升约40倍 25:25 Sean的三层框架:硬件、系统软件、模型算法 26:04 Dylan完全不同意:最大收益来自协同设计层 26:55 DeepSeek V3的专家形状是为Hopper优化的 27:43 TPU跑DeepSeek很拉胯,跑其他模型却非常出色 28:07 中国在协同优化上比西方做得好?Dylan不这么认为 28:42 真正的突破:跨三层协同优化,2倍×2倍×2倍变成100倍 技术瓶颈与供应链创新 30:49 未来一年最关注的技术瓶颈:内存带宽 31:46 直接把内存堆在芯片上,带宽会暴涨 31:58 打破每平方毫米一瓦的功率天花板 33:16 能源瓶颈的简单解法:用卡车发动机改造成天然气发电机 GPU vs TPU与CUDA护城河 34:25 Nvidia对TPU:两年后两边都是千亿美元级别 35:24 两边都有很能打的论点,但归根结底是协同设计 35:50 OpenAI用TPU可能很糟糕,Anthropic用GPU训练也可能很糟糕 36:09 矩阵乘法单元大小不同,导致模型架构根本不同 37:20 CUDA护城河已经被解开了,因为模型编程能力很强 37:58 真正的护城河不是CUDA,而是下游模型对Nvidia的优化 38:49 开源模型生态让下游使用者被绑在Nvidia上 39:40 大实验室早就fork了PyTorch,不需要依赖开源 Cerebras、经济账与AI投资回报率 40:07 Cerebras:推理速度极快,但超大模型和超长上下文是风险 42:46 Dylan的独特优势:把技术和经济账结合起来 43:55 最让Dylan上头的言论:AI没有投资回报率 44:06 模型能力曲线一直在向右上方走,看新的基准测试 十年框架与终局判断 45:52 十年框架下最兴奋的事:太空数据中心、小行星采矿 46:29 共封装光学:争论的只是27年、28年还是29年发生 46:48 Naveen Rao的长期赌注:模拟计算与基于能量的模型 48:20 生态终局:每家超大规模云厂商都会有自己的芯片 49:24 硬件架构和模型架构会出现更多分叉 50:20 通用AI算力永远有市场,因为实验室连一年后用什么架构都不知道 51:51 每家都会投入数十亿美元部署专用集成电路 数据中心建设与计算资源紧缺 52:52 我们正处在一场疯狂的计算资源紧缺之中 53:22 今年20吉瓦,明年超30吉瓦,但模型能力增长更快 54:31 Anthropic第二季度已经净利润盈利 54:44 Opus token利润率超过80% 55:45 只要毛利率是正的,就会不惜代价租GPU 55:58 计算能力建设会不会突然出问题? 57:01 如果模型能完成的工作量增速超不过算力增速,风向就会变 57:49 模型现在进步得比六个月前更快:递归式自我改进在运转 数据中心的同质性与新云厂商 59:20 沙特原油的类比:不同吉瓦之间有多大同质性? 01:00:39 Trainium每吉瓦不到100亿美元,GPU每吉瓦120到130亿 01:02:07 数据中心租赁价格从每千瓦60美元涨到120到160美元 01:02:47 常见的坑:项目直接失败,必须做概率加权 01:03:18 Google在一个吉瓦级数据中心里实际部署1.5吉瓦硬件 01:04:51 一个吉瓦给Anthropic产生的收入比给OpenAI更高 NeoCloud的机会与Jensen的布局 01:06:22 NeoCloud为什么存在?超大规模云厂商的专长在AI云里变成拖累 01:07:21 Nitro智能网卡对AI性能不利,安全功能在AI场景没意义 01:08:59 Jensen绝对讨厌超大规模云厂商掌握所有权力 01:09:22 他想要一个多极化的世界,所以砸钱给新实验室和新云厂商 01:10:11 新云生态就是蛮荒地带,有些会失败,有些会脱颖而出 01:11:10 Thinking Machines做到上亿美元年度经常性收入 🌟 精彩内容 💡 软硬件协同设计:2倍×2倍×2倍变成100倍 Dylan指出,AI效率提升的真正魔法不在单一层面,而在跨层协同。当模型架构、底层内核和芯片设计被当作一个整体来优化时,收益不是加法而是乘法,甚至是指数级的。这就是为什么顶尖实验室和英伟达这样的公司能持续领先。 "真正的突破性创新,是当你跨越几层去做协同优化和协同设计,突然间,本来这里2倍、那里2倍、那里2倍,不是乘起来变成8倍,而是直接100倍。" 💡 CUDA护城河从来不是CUDA本身 Dylan颠覆了行业对英伟达护城河的认知。他认为真正的锁定效应不是CUDA软件生态,而是下游模型在架构层面就为英伟达GPU做了深度优化。DeepSeek的专家模块形状是为Hopper定制的,所以跑在TPU上表现很差。这种模型层面的协同设计,才是真正的护城河。 "这其实不是CUDA在起护城河作用,而是下游产品对Nvidia优化得更好。而且这些公司还都在开源这些模型。" 💡 推理将是地球上最大的市场,比石油大得多 Dylan对AI推理市场的规模做出了大胆预测:到2030年仅OpenAI和Anthropic就会超过100吉瓦,到2040年进入太瓦级别。他认为AI推理将占到GDP的好几个百分点,成为人类历史上最大的单一市场之一。 "推理,不管是开源模型还是闭源模型,都会是世界上最大的市场之一。我觉得会比石油大得多。" 💡 别拿次优配置跟最优配置比 在解释InferenceX的帕累托最优曲线时,Dylan用一个赛车比喻点出了行业基准测试的普遍问题:人们总拿别人次优的配置来跟自己最优的配置比,这就像开保时捷跟赛车手比谁开得更慢。InferenceX要做的是为曲线上每一个点都找到真正的最优配置。 "很多时候,人们在比较推理性能时,会拿别人次优的曲线或点位,来跟自己最优的去比。这就好比,我开保时捷,跟某个赛车手比,肯定是我开得更慢。" 💡 模型进步没有停滞,递归式自我改进正在加速 面对"模型能力即将停滞"的论调,Dylan给出了一个令人兴奋的观察:工程师们正在用模型来帮助编写代码、加速推出下一代模型,形成了一个类似递归自我改进的循环。模型现在进步得比六个月前更快。 "模型现在进步得比六个月前或一年前更快,因为你看到的是一个类似递归自我改进的循环在运转,模型变得更好、更

    1h 12m
  6. 1d ago

    #606.Codex 负责人:品味与判断力为何成为你最值钱的资产

    📝 本期播客简介 本期我们克隆了:知名产品与增长播客《Lenny's Podcast》OpenAI Codex lead on taste, curation, and building for AGI | Andrew Ambrosino 原内容更新时间:2026-06-28 本期嘉宾是 OpenAI 旗下 Codex 应用的产品与工程负责人 Andrew Ambrosino,主持人是 Lenny Rachitsky。Andrew 本人经历了从设计师到工程师再到产品经理的转型,目前正带领团队打造这款正被全球越来越多人使用的桌面应用。这期节目录制于线下,是一场关于 AI 时代产品工作形态的坦诚交流。 他们深入探讨了 AI 如何彻底颠覆传统的产品开发流程——当任何人都能用模型做出任何功能时,实现本身不再是成本最高的部分,品味、判断力和策展能力正在成为最稀缺的资源。Andrew 分享了 OpenAI 内部独特的“90 个原型”文化、角色边界消融的真实状态,以及 Codex 应用从开发者工具演变为通用知识工作平台的曲折历程。 如果你正在思考 AI 时代的产品策略、团队组织形态、个人技能转型,或者对“品味”这个词在实践中的真正含义感到好奇,这期节目会提供大量来自最前沿的一手经验和判断。 👨‍⚕️ 本期嘉宾 Andrew Ambrosino,OpenAI 旗下 Codex 应用的产品与工程负责人。他是一位从设计师转型工程师、再转型产品经理的跨界者,目前负责的 Codex 应用正迅速成为人们构建产品的首选工具,同时也被广泛用于整理电脑文件、起草文档、数据分析、阅读邮件等非开发类工作。在 OpenAI 内部,几乎 100% 的员工每周都在使用 Codex,且不限于工程师。Andrew 的独特背景让他对 AI 时代产品工作的形态变化拥有极为前沿的视角。 ⏱️ 时间戳 开场与节目介绍 00:00 欢迎收听跨国串门计划 00:35 本期克隆节目介绍:Lenny's Podcast 与 Andrew Ambrosino 的深度对谈 02:57 嘉宾 Andrew Ambrosino 正式登场 AI 如何颠覆产品开发流程 04:27 现在的产品团队形态跟几年前比是什么样的 04:35 流程的倒置:任何人都能做出任何东西 05:04 传统产品流程的前提假设:实现很贵 05:52 实现本身不再是成本最高的部分,品味才是 06:11 90 个原型的文化:大家直接上手做,不再写文档 06:44 PRD 已死?Andrew 为什么不同意 07:18 选对表达观点的媒介变得非常关键 07:44 “原始笔触”的隐喻:原型有时反而是错误的第一步 08:19 媒介隐含的信号与流程阶段已经脱钩 品味与判断力的真正含义 09:31 到底什么是好的品味 09:55 品味不只是审美,还有系统思维 10:43 如果我们什么都能做,那到底应该做什么 10:55 AI 在设计上为什么还是不行 11:29 设计比软件更难打分,品味中人的因素本身就是反馈机制 12:20 设计中新颖性的重要程度远高于软件工程 13:16 软件设计与代码之间的抽象层互动 设计流程已死? 14:56 对 Jenny 观点的回应:设计流程确实死了 15:14 传统设计流程的“案例研究工厂”问题 15:55 那套流程的前提假设:实现成本很高,只能承担一次开发 16:28 现在你可以把整个实现都拉进流程 16:56 把设计流程跟媒介绑定才是可怕的地方 17:33 设计流程已死,既对也不对 角色崩塌与团队形态 18:23 Codex 团队的角色崩塌比公司其他部门更明显 19:00 你的角色是你花时间所做事情的平均值 20:10 “技术团队成员”这个称呼的起源 21:11 消除角色概念的危险:抹杀专业领域和最佳实践 21:29 取消产品角色是个非常糟糕的主意 21:52 “这不是你的领域”的边界乐于看到消失,但需要平衡 23:11 Codex 团队的构成:工程师两位数,设计师大概一半 24:05 产品工作像“区域防守” 24:40 产品人员的区域防守到底是什么样 25:54 最有价值的人:能把想法从概念做到完成,并有品味判断好坏 规划、野心与时机 27:06 在变化速度下怎么做路线图规划 27:32 越短期越需要细节,九个月后的规划必须保持模糊 28:41 Codex 桌面应用如果在十一月发布会失败,二月就成功了 29:01 去做那些现在还不行、但等模型变强之后就能行的东西 30:11 不要固执地认为跑不通就是烂功能,可能只是还没到时候 30:31 最初 Codex Web 太 AGI 化,超前于那个时刻 32:08 推动团队更有野心,因为做难事变得容易太多了 AI 编程的最新前沿 32:52 从手写代码到 AI 写 100% 代码,再到“驾驶 AI” 33:27 循环已经是上周的事了 33:35 产品有多少是 AI 写的?这个问题已经变了 33:49 有监督写还是无监督写,完全是另一回事 34:14 模型通常会增加复杂度,需要更擅长删除代码 34:43 还没到直接说“改进应用”就能让它去听 Twitter、Slack 的地步 Andrew 如何使用 Codex 35:12 拥有全世界最棒的工作 35:29 个人目标:把 Codex 做成自己写代码用的工具 35:43 超快的 dogfooding 循环 36:11 角色变了,应用的角色也需要改变 37:21 使用 Codex 的方式随工作演变 37:31 每日简报:汇总 3000 个 Slack 频道的信息 38:44 设置自动化本身就是产品发现 39:45 用 Codex 过滤垃圾邮件的例子 40:18 computer use:AI 直接接管电脑操作 Codex 的愿景与未来 44:47 Codex 的愿景到底是什么 45:01 从命令行工具到桌面应用 45:26 内部 dogfooding 发现:非工程师也在疯狂使用 46:30 没人愿意离开 Codex App 去用其他 App 46:43 开发者工具和通用知识工作工具的界限不是非此即彼 48:05 超级 App 的讨论 48:24 Codex 是很好的大本营,调用你需要的任何工具 49:22 Brent 用 Codex 剪辑视频的故事 50:01 与专业工具无缝交互的模式 失败角与闪电问答 51:03 失败角:大家看不到不顺利的时候 51:33 做了很长时间的创业公司创始人,最后把公司拆开卖掉 52:08 把 Codex App 经验跟 ChatGPT 结合中的无数次微小失败 52:27 内部搞砸时没有人会留情面 52:57 闪电问答环节 53:03 最常推荐的书:《咕噜牛》 54:07 最喜欢的童书:《The Big Orange Splotch》 55:16 最近喜欢的剧:《神奇校车》新版 55:58 最喜欢的产品:每天都在发现自己的产品,Linear 也特别好 56:17 人生格言:不是爱讲格言的人,但别人会告诉他哪些话老挂在嘴边 56:36 PM、设计师、工程师哪个最难 花絮与结尾 58:02 制作人分享用 Codex 做剪辑的体验 58:17 每个任务都这样开始:产品本身不是为这个设计的,但什么都能做 59:00 别死守你现在的流程,要死守的是你独特能交付的成果 59:20 在 AI 时代成功,需要的自我认知程度高得离谱 59:54 讨厌重复的人当创始人挺惨的,因为你必须重复 01:00:17 给自己的职业找到了产品契合度 🌟 精彩内容 💡 实现本身不再是成本最高的部分,品味才是 当任何人都能用模型做出任何功能时,产品开发的核心瓶颈从“能不能做出来”变成了“该做什么、怎么判断好坏”。Andrew 指出,在 OpenAI 内部,同一个需求可能有 90 个不同的探索方向在同时进行,真正的挑战是筛选、策展和整合。 “实现本身不再是成本最高的部分了。我斗胆说一句,是品味。是筛选的过程。” 💡 你的角色是你花时间所做事情的平均值 在 Codex 团队,角色边界正在消融——设计师写代码,产品经理讲技术语言。Andrew 提出一个精妙的定义:如果你把一个人做的所有事情取个平均值,重心落在哪里,他目前就是什么角色。这不是角色消失,而是流动性增强。 “每个人不再被‘设计在哪结束、工程从哪开始’这种边界和围栏所定义,而是更多地由他们工作内容的平均分布来定义。” 💡 选对表达观点的媒介变得非常关键 当实现成本趋近于零,PRD 和原型各有适用场景。Andrew 反对“PRD 已死”的极端说法,认为关键在于清楚这个东西在流程中处于什么阶段——文档适合厘清模糊思路,原型适合压力测试交互模式。 “如果实现变得极其充裕,那选对表达观点的形式就变得非常重要。” 💡 不要固执地认为跑不通就是烂功能,可能只是还没到时候 Codex 桌面应用如果在十一月发布会失败,但二月就成功了——唯一的区别是模型能力的变化。Andrew 强调,同一个形态的产品,仅仅因为几个月的时机差异,结果就完全不同。产品失败现在可能只是时机问题,需要反复发布。 “你可以在 Operator、Atlas、Codex、ChatGPT 之间画出一条线,本质上它们是同一个功能,但用不同的智能水平重新发布,结果就完全不同。” 💡 消除角色概念可能危险地抹杀专业领域 Andrew 对“取消产品角色、所有人都叫 builder”的潮流持批评态度。他认为这会抛弃产品领域积累的整套方法论和最佳实践。“这不是你的领域”的边界乐于看到消失,但需要平衡——不能让每个人什么都做。 “产品这个领域积累起来的整套方法论、那些真正的最佳实践、那些被验证过成败的经验,全都被抛弃了,就因为人们觉得‘哦,我也会写点代码了’。” 💡 别死守你现在的流程,要死守的是你独特能交付的成果 在花絮中,Andrew 给出一条核心建议:不要固守 Figma 自动布局之类的具体工具技能,AI 以后这方面会比你强。真正重要的是你独特能交付的成果,然后去改流程、去尝试。 “要死守的是你独特能交付的成果,然后去改流程、去尝试。你一直守着‘我最懂 Figma 自动布局’,你在干嘛呢?” 💡 在 AI 时代成功,

    1 hr
  7. 2d ago

    #605.Dwarkesh:AI 训练的下一个范式,为什么你的模型永远毕不了业

    📝 本期播客简介 本期我们克隆了:Dwarkesh Patel 的个人深度播客 What does the next training paradigm look like? 原内容更新时间:2026-06-26 Dwarkesh Patel 是硅谷当下最受瞩目的科技思想者和深度访谈主持人,以长篇幅、高密度的逻辑推演著称。在这期单人音频论文里,他没有邀请嘉宾,而是单刀直入地解剖了当前 AI 训练范式的根本性缺陷,并描绘了一个通往通用智能的关键路径:持续学习。 这期节目不是泛泛的行业趋势讨论,而是一场关于 AI 如何从“课堂学霸”进化为“职场精英”的严密思辨。Dwarkesh 从“可验证性”与“可磨练性”的区分切入,层层推演出为什么当前依赖 RL 环境训练的范式不足以产生真正的通用智能,以及为什么让模型在部署后持续从真实世界互动中学习,才是破局的关键。如果你在思考 AI 的能力边界、训练瓶颈和下一个十年的技术路线图,这期内容会提供极高密度的认知框架。 👨‍⚕️ 本期嘉宾 本期为 Dwarkesh Patel 单人音频论文,无嘉宾。Dwarkesh 是硅谷知名播客《Dwarkesh Podcast》的主持人,以与顶尖 AI 研究者、企业家和思想家的深度对话闻名。他擅长将复杂的技术概念转化为清晰的逻辑链条,其个人博客和音频论文在 AI 社区中具有广泛影响力。 ⏱️ 时间戳 开场与核心问题 00:00 欢迎收听跨国串门计划 00:30 本期克隆节目介绍:Dwarkesh Patel 个人深度音频论文 00:53 核心问题:AI 训练的下一个范式与持续学习 当前训练范式的赌注与缺陷 01:47 各大实验室押注的重大研究方向:RL 环境训练 02:09 当前范式的根本缺陷:数据低效与缺乏持续学习 02:32 模型样本效率只有人类的百万分之一 03:05 持续学习可能根本不需要?上下文学习的替代方案 03:43 架构创新让上下文窗口接近无限大 可验证性 vs 可磨练性 03:55 为什么计算机使用进展比编程慢这么多 04:28 被低估的原因:光有可验证性不够 04:49 可磨练性的定义:确定性、可重放的模拟器 05:04 编程 RL 环境的构建方式 05:21 计算机使用无法大规模并行 rollout 的原因 06:02 计算机使用缓慢揭示的深层教训 06:29 无法构建模拟器的领域:创业、诉讼、选举 07:06 非稳态环境是 RL 的开放问题 07:14 世界需要样本效率才能精通 RLVR 能泛化到真实世界吗 07:49 RLVR 会泛化的赌注 08:23 泛化能力是一个实证问题 08:40 Dario 的暗示:短时间尺度训练不一定泛化到长时间尺度 09:30 即使上下文内经验足够,不存回权重也是浪费 09:44 推理算力占 30%-50%,对改进模型无贡献 10:13 天才研究生从不实习的隐喻 持续学习的核心挑战 10:33 持续学习必须回到权重里 10:43 人类大脑不在参数和激活间划界限 11:00 自闭症天才的高保真记忆与抽象能力削弱 11:20 人类持续学习的本质:把直觉凿回权重 11:30 梯度更新的样本效率极低 11:41 Cursor 的在线学习案例 12:12 每份工作、每家公司都不同,需要个性化学习 12:44 样本效率与持续学习是深度关联的问题 13:06 架构并非根本瓶颈 损失函数与新的训练方法 13:27 瓶颈也许在于损失函数 13:42 On-Policy 自蒸馏技术介绍 14:14 OPSSD 优于 RLVR 的两个原因 14:50 OPSSD 也优于监督微调 15:17 RL 训练擅长精准更新,避免灾难性遗忘 15:41 RL 每个样本学得少,但这是好事 16:08 OPSSD 解决样本效率问题 Dreaming:第四个扩展维度 16:18 Dreaming 的猜想:AI 构建现实模拟器 16:33 AlphaZero 与 Efficient Zero 的历史 17:03 模型在“脑海”里玩模拟游戏 17:22 构建世界模拟器的巨大困难 17:32 继预训练、RL、推理时计算后的第四维度 18:04 /dream 指令:消耗海量算力构建电子游戏版现实 2027-2028 年的可能图景 18:13 持续学习的未来情景 18:23 RLVR 产出的 Agent 能迅速找到方向 18:44 把 Agent 放到真实世界做实际工作 18:55 一周密集协作后蒸馏学到的内容 19:32 技能范围通过持续学习不断扩展 19:41 预训练、RLVR、持续学习的递进关系 20:03 AI 进步的主要方式将转向部署后学习 20:16 你每次互动,AI 都变得更聪明 🌟 精彩内容 💡 天才研究生从不实习 Dwarkesh 用一个精准的比喻揭示了当前训练范式的荒诞:我们花了巨大算力训练出极其聪明的模型,却只让它们在人工构造的 RL 环境里做“课堂案例研究”,从不允许它们从真实世界的部署经验中学习。最有价值的训练信息恰恰在部署阶段才会显现。 “我们就像有个天才研究生,却从不让他去真正实习。我们只是一直在 RL 环境训练里,给他越来越多的课堂案例研究。” 💡 可验证性不够,还要可磨练性 很多人困惑为什么 AI 在编程上突飞猛进,在计算机使用上却进展缓慢。Dwarkesh 指出,一个领域光有可验证的正确答案是远远不够的,还必须能构建出确定性、可重放、可大规模并行的模拟器。这解释了为什么很多现实世界技能难以通过当前范式训练。 “一个领域光有可验证性是不够的。它还必须具备高度的可磨练性。” 💡 人类持续学习的本质是压缩 与模型在上下文窗口中高保真存储信息不同,人类学习的关键在于把经验压缩成直觉和全局知识,凿回神经权重里。那些能记住海量细节的自闭症天才,反而在抽象理解上存在困难。 “人类的持续学习,重点不在于把所有观察到的东西都挂在嘴边,而更多是把正确的直觉和全局知识凿回到权重里。” 💡 RL 学得少反而是优势 监督学习试图让模型完美复现所有观察到的数据,但这会导致灾难性遗忘。RL 训练每次只改动极少数参数,精准聚焦于真正影响结果的地方。这种“学得少”的特性,恰恰是持续学习所需要的。 “RL 每个样本学到的信息比监督学习少得多。但这可能是好事,而不是坏事。你只对模型做最必要的改动来达成结果,绝不多改。” 💡 你每次互动,AI 都变得更聪明 当持续学习真正实现后,AI 进步的主要方式将不再是发布前的集中训练,而是来自部署后与全世界所有用户的所有互动中积累的经验。这是一个与今天完全不同的 AI 进化范式。 “你每次和 AI 互动,它都会变得更聪明。这不仅是因为它从你之前的会话中学习了,也因为它从和世界上所有其他用户的所有互动中学习了。” 💡 Dreaming:第四个扩展维度 Dwarkesh 提出一个猜想性的未来:如果 AI 能构建现实世界的高保真模拟器,在“脑海”里进行海量排练,那么同样的现实时间里,AI 能经历数量级更多的模拟样本。这将成为继预训练、RL 和推理时计算之后的第四个扩展维度。 “模型花费算力来编写 RL 环境,然后针对这些环境进行训练,它排练的是那些将为特定用户在生产中实际使用的所有技能。” 💡 上下文窗口无限大也不能替代权重更新 有人寄希望于上下文窗口的不断扩展来替代持续学习,但 Dwarkesh 指出这根本不可扩展,而且人类也不是这么做的。我们的头骨不会因为学得越来越多就不断变大,学习必然涉及某种压缩。 “你的头骨也不会因为一辈子学的东西越来越多就不断变大。我们学习的时候,明显存在某种压缩,这种压缩帮助我们泛化和真正理解。” ``` 🌐 播客信息补充 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight 在小宇宙查看该单集文稿

    21 min
  8. 2d ago

    #604.OpenAI Noam Brown:模型评估方式,正在错过 AI 真正的能力上限

    📝 本期播客简介 本期我们克隆了:知名科技播客《No Priors》的节目《Why Traditional Benchmarks Fail Modern AI Models with OpenAI Research Scientist Noam Brown》 原内容更新时间:2026-06-26 本期嘉宾是 OpenAI 研究科学家 Noam Brown,主持人是硅谷知名投资人、Conviction 创始人 Sarah Guo。Noam 是 AI 推理领域的先驱,也是推动“测试时计算扩展”这一概念进入主流视野的关键人物。三年前他第一次上节目时,很多人还没意识到让模型“多想想”意味着什么;三年后,推理时扩展已经成为行业最核心的竞争维度之一,但评估体系却远远没有跟上。 这期节目围绕 Noam 刚发表的一篇引发广泛共鸣的文章展开,核心论点直指行业痛点:传统的静态基准测试表格已经彻底失灵。当模型的能力本质上是你投入多少算力预算的函数时,用单一数字去比较模型就变得毫无意义。Noam 用 OpenAI 内部模型推翻 Erdős 单位距离猜想的案例说明,当前这代模型的能力上限远未被充分探索——如果你愿意花 10 万美元的推理预算,可能早在几个月前就能做出突破性成果。 如果你关心 AI 评估体系的未来、测试时计算的真实潜力、递归自我改进的进展节奏,以及前沿实验室之间的竞争格局,这期对谈会提供非常一手、非常诚实的内部视角。 👨‍⚕️ 本期嘉宾 Noam Brown,OpenAI 研究科学家,AI 推理与测试时计算扩展领域的先驱人物。他在加入 OpenAI 之前,曾在 Meta AI(原 Facebook AI Research)领导 Libratus 和 Pluribus 等扑克 AI 项目,后者是首个在六人无限注德州扑克中击败人类顶级玩家的 AI。Noam 长期关注如何让模型在推理阶段“思考更久”以获得更好的结果,这一理念如今已成为前沿模型能力提升的核心路径之一。 ⏱️ 时间戳 开场与节目背景 00:00 欢迎收听跨国串门计划 00:37 本期克隆节目介绍:《No Priors》与 Noam Brown 对谈 00:55 Noam 关于测试时计算的核心观点预览 02:27 Sarah Guo 开场介绍 Noam Brown 基准测试为什么失灵了 03:12 Noam 写文章的动机:5.5 发布后的基准测试争议 03:44 传统基准测试表格的问题:只给单一数字 04:14 5.5 在基准测试上表现不佳的真正原因 04:46 为什么不让模型思考更久?平台期太遥远 05:09 GPT-3 时代 vs 现在:模型可以思考数周 05:50 正确的评估方式:按预算或绘制性能曲线 安全评估的盲区 06:32 网络安全评估:1 亿 token 预算下性能仍在提升 07:01 研究方向:用低预算预测高预算下的性能 08:16 刷榜问题:组合模型很容易做出好看的成绩 09:04 基准测试总面临被针对性优化的风险 09:24 应对办法:保留不公开的私有测试集 用扑克求解器测试模型推理能力 09:48 Noam 的个人评估方式:做扑克机器人 10:24 早期模型到 5.2 的演进:河牌求解器 11:01 5.2 的缺点:爱糊弄人 11:20 模型糊弄人的具体案例:92 美元 vs 100 美元 11:47 5.5 的飞跃:基本可以零样本完成 11:58 预测:六个月内模型可能完成整个博士论文 安全评估中的“房间里的大象” 12:21 安全评估与测试时计算的关系 12:40 责任缩放政策与准备框架的背景 13:11 这些框架建立时测试时计算还不是大事 13:33 核心问题:模型能力是你投入预算的函数 13:55 现有政策没有真正解决预算评估问题 14:13 正视这个被假装不存在的问题 模型发布周期与能力上限的探索 15:09 模型越来越强,能运作的时间跨度越来越长 16:11 发布周期两三个月,没人真正知道能力上限 16:52 slash goal 发布后人们才意识到长期任务的重要性 17:07 实验室在发布前充分评估模型非常困难 推翻 Erdős 单位距离猜想的故事 17:35 OpenAI 内部模型推翻 Erdős 单位距离猜想 18:10 在很低预算下模型就找到了反证 18:32 用 5.5 加通用脚手架也能得出反证 19:01 成本估算:1,000 到 100,000 美元 19:09 本来有人可以更早用通用模型做到 等待下一个模型 vs 充分探索当前模型 19:32 值不值得在当前模型上做大量实验 19:41 每个发布周期成本下降 10 到 100 倍 19:52 “等下一个模型发布就行”的梗 20:18 OpenAI 刻意不去遍历所有数学开放问题 20:42 重点应该放在做出更强的模型 递归自我改进与快速起飞 21:18 研究方向与资源分配的变化 21:30 澄清:给极高推理预算不等于全面超级智能 21:49 有些基准测试给再多预算也不会进步 22:51 研究品味目前还不太好 23:28 模型能优化算法但想不出更好的算法 24:11 每次新版本研究品味都会变好一些 递归自我改进的节奏 24:32 模型加速了一些事情,另一些没有 24:44 被没加速的事情卡住 24:52 渐进起飞而非一夜之间的智能爆炸 25:28 大规模测试时计算意味着被时间卡住 25:48 时间本身成为最大的瓶颈 多智能体与知识积累 26:08 多智能体探索得还不够 26:28 小规模下很难做好多智能体研究 26:40 人类文明的类比:数十亿人长时间思考与积累 27:12 AI 模型还做不到有机的知识积累与分享 27:27 Multibook 和 OpenCLAW 预示了未来方向 前沿竞争格局 27:57 三家前沿实验室之间的竞争 28:26 竞争非常激烈 28:28 模型正在加速研究人员的工作 28:45 所有前沿实验室都认识到利害关系和风险 29:05 竞争之外也可以一起走向积极结果 给用户的建议与行业共识 29:22 Noam 鼓励大家重新信任模型输出 29:49 日常使用案例:税务建议、购房文件 30:05 模型已经到了可以信任甚至比人更可靠的程度 30:14 研究社区里还没被充分理解的事 30:34 三年前的“愤愤不平”与现在的共识状态 30:54 写文章的动机:打破糟糕的均衡 31:23 所有人都知道表格不好但没人愿意打破 路由层与模型评估 32:01 专注特定领域的公司:路由层的价值 32:47 路由与基准测试的 x 轴问题 33:01 模型间共识确实能获得更好表现 33:07 关键问题:让单个模型思考更久会不会更好 33:36 路由可能更好但需要控制测试时计算量 🌟 精彩内容 💡 基准测试表格已经彻底失灵 Noam 指出,传统模型发布时那张 x 轴是基准测试、y 轴是分数的表格,在测试时计算时代已经毫无意义。因为模型的能力不是固定值,而是你投入多少算力的函数。不控制思考时间就对比模型,就像不控制车速就对比油耗。 "如果你在纸面上看 5.5 和 5.4 之间的差异,它确实有提升,但不是巨大的提升。等他们上手一用,看法就变了。" 💡 模型可以思考数周,平台期远未到来 GPT-3 时代模型思考几秒就到瓶颈,但现在的模型如果搭好框架,可以在某些任务上持续进步数周甚至数月。这意味着我们从未真正看到过当前模型的能力上限。 "如果你给它们搭建好合适的框架,它们可以思考数周,在某些基准测试上性能才会达到平台期。" 💡 安全评估在假装这个问题不存在 现有的安全评估框架大多建立在 ChatGPT 时代,那时候测试时计算还不是大事。但现在模型的能力是你投入预算的函数——一千万美元预算能做的事远超十美元预算。该在什么预算下评估模型的安全性?这个问题一直被回避。 "现有的准备框架和责任缩放政策,并没有真正考虑测试时计算量。问题在于,我们现在所处的世界,模型的能力基本上是你投入多少钱的函数。" 💡 推翻数学猜想的成本比你想象的低 OpenAI 用内部模型推翻了 Erdős 单位距离猜想,成本非常低。更惊人的是,用 5.5 加通用脚手架也能做到,成本大概在 1,000 到 100,000 美元之间。这意味着很多突破性成果其实早就可以实现,只是没人愿意花这个预算去试。 "本来有人可以在我们之前就用通用模型推翻 Erdős 单位距离猜想。只是没有人充分探索过,如果我把价值 100,000 美元的算力砸进 5.5,会发生什么?" 💡 时间本身成了最大的瓶颈 Noam 认为不会出现一夜之间的智能爆炸,因为模型极度依赖大规模测试时计算来达到最高智能。需要运行足够久才能做出真正强大的东西,这意味着时间本身成了瓶颈。这也是为什么所有研究人员都在拼命工作。 "如果需要那么多测试时计算才能解锁模型的全部能力,那就意味着你被时间卡住了。事情只能快到一定程度。" 💡 模型还做不到人类那种知识积累 人类文明的力量不在于个体在过去五万年里变聪明了,而在于数十亿人长时间思考并在彼此知识上构建。AI 模型目前还做不到这一点——它们诞生、存在于短上下文窗口、然后消失。 "这是一种非常有机的、涌现出来的特性,就是人类能够积累知识、分享知识,并在此基础上继续构建。我们现在在 AI 模型身上还看不到这一点。" 💡 所有人都知道基准测试表格不好,但没人愿意打破 Noam 写文章的深层动机是打破一种“糟糕的均衡”:每个实验室都知道静态表格有问题,但因为外界期望看到表格、因为所有人都在发布表格,就没人敢第一个改变。 "所有人的反应是,外界期望我们发布那个表格。那为什么外界会期望发布表格呢?因为每个人都在发布表格。于是你就陷入了一种糟糕的均衡。" ``` 🌐 播客信息补充 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有

    35 min

Ratings & Reviews

4.3
out of 5
6 Ratings

About

这是一档使用 AI 技术来将英文播客翻译为中文播客的节目~ 在翻译的同时,也能保留原有声线,用中文听懂外语播客!

You Might Also Like