揭秘科技

老于带你看懂工作

科技不应该只是少数人的专利,每个人都应该能够理解和享受科技带来的好处。在这个快速发展的科技世界中,理解和跟上科技的步伐并不容易,能够穿透表象看到本质更为困难。我的目标是用通俗易懂的语言,将复杂的科技概念和商业话题讲解得明明白白。 主播老于在科技行业工作超过20年,曾在多家头部公司和独角兽企业担任要职。他在大型企业和初创公司皆有着将业务从零到一发展至盈利或全球过亿日活用户的经验。与许多科技从业者不同的是,老于曾直接负责研发、产品管理、销售运营、战略规划、合作伙伴拓展以及业务盈亏,涵盖了现代科技公司的所有方面。 老于对人类历史上规模最大的人工智能产品和用户反馈有着深刻了解,这使他在这一领域具备独特的洞察力。工作之外,老于热衷于心理学,并通过这一爱好获得了对人类行为和思维模式更深入的理解;老于还是一名规律的阿斯汤伽瑜伽练习者,这使得他思维敏锐、内在平静。

  1. 18小时前

    E162 “to春晚”之后的机器人,什么时候能“to家庭”?

    "只有第一名才有意义",这句残酷的话,在“to春晚”这个赛道,再一次被无情的证实,“第二名只能说明你是头号输家”。 难道我们在小视频里看到的机器人在家里把起床后的被子铺平整、清理桌面的垃圾到垃圾筐、并把桌面的物品摆放整齐,等等,这些视频是假的、是AI做的?当然不是。那是人在旁边拿着遥控器遥控机器人做的?也不是。那是编好了的程序实现的、而不是机器人自主实现的?还不是。那这些做家务的视频到底是如何实现的?我们到底要等到什么时候才能让机器人不仅仅是to春晚,而是能to家庭? 02:08 我找不到比"to春晚“更简练更准确的描述这一行为的词汇了,只好自己发明了一个,这是即to C, to B, to VC之后的,另一个营销方面的创新。 03:57 机器人比自动驾驶要复杂不知道多少倍,首先。。 06:27 今天机器人面临的最大的挑战,不是让AI学会思考,而是让AI学会物理世界本身。 06:45 过去两三年才出现的人形机器人行业,到底是怎么训练机器人的? 07:17 最主流的一种训练数据的采集方式叫做“遥操作”。 07:24 “摇操作”和很多人想象的打游戏似的,拿着遥控器操控,其实不一样。 09:25 这里真正重要的其实不是“输出的动作”本身,而是“视觉里看到了什么、和输出什么样的动作”之间的对应关系。 10:17 听起来像是机器人有智能了,但其实还不是 10:24 这样训练出来的机器人,充其量是一个刷题刷出来的牛娃儿。 10:43 为了通过VLA的方式来实现“刷题智能”,过去几年,整个机器人行业都在做,疯狂的做一件事儿 11:26 很快,整个行业就会发现一件事儿,遥操作获取数据这条路,可能从根本上是无法规模化扩张的。 12:14 Jim Fan 提出了他的新观点,VLA方式的技术路线已经过时了,取而代之的新范式叫做“世界动作模型” 12:34 模型的目标也要变了,训练的逻辑也要变了,整个商业的权力结构也自然的会跟着变了。 14:10 世界动作模型本质上是什么呢? 15:08 VRA更像是条件反射,而世界动作模型更像是先做心理模拟、再行动,这其实更接近于人类。 15:55 这样的一个训练范式转变之外,Jim Fan 还提到了在世界动作模型这个新的架构之下的数据革命。 17:44 这次英伟达Jim Fan 昨晚提到的世界动作模型,和之前英伟达的和业界总说的世界模型是一回事吗? 20:08 但不管怎样,人类已经走在了一条未来会让自己都震惊的路上。

    21 分钟
  2. 4月9日

    E160 为什么国内互联网公司都在“打造大模型负责人IP”?

    最近,“与辉同行”等一系列大小直播间和名人带货的优思益翻车了。对此类的翻车,我从来都不惊讶,因为好货,并不需要这么大张旗鼓的去带。最近还有另外一个新闻,就是阿里云请了“李飞飞”做CTO。 01:40 在沸沸扬扬的林俊旸离职事件之前,林俊旸被封了很多“神”。 02:37 其实每家互联网公司,都在高调的打造各自的“大模型负责人”的 IP,不是“天才少年”,就是“天才少女”。 03:18 “打造大模型负责人IP”这件事儿的本质是什么呢? 03:28 这是一种用人来建立信任与差异的方式。 04:28 为什么这种模式在今天成立呢? 05:36 当技术差异足够大的时候,人就会消失;当技术差异不够明显的时候,人就会被放大。 05:45 那国外有什么不一样吗? 07:11 中美大模型“带货”差异的本质不是有没有人带,而是人在干什么。 07:45 为什么我们这边很少看到“叙事性”的人物? 07:49 “叙事能力”不是简单的表达能力,它需要3件东西。 08:40 缺乏“叙事能力”就很难建立“为什么是你?”的理由。 10:06 没有“叙事能力”本质是没有长期坐标系,于是公司就会看竞品做什么,我们就来做什么。 10:25 没有叙事者,就无法成为规则制定者。 10:59 无论是保健品还是大模型,背后用的是同一套逻辑。 11:06 当产品本身无法被验证,或者是差异不明显的时候,市场就不会再问这个东西到底好不好,而是会退化成一个更简单的逻辑,“我应该相信谁?” 11:51 有的产品需要一个人站在前面拼命解释,而有的产品只需要一个名字。

    13 分钟
  3. 2月9日

    E159 回家看看,然后各自安心生活 | 春节特辑

    今天这期节目有点不一样,不聊科技,不聊商业,聊一件每年春节都会发生、马上又要发生的事—— 回家过年。 00:35 周末看到一则新闻,新闻里的当事人。。。 02:22 很多人回家过年的经历,或者把父母接到自己工作生活的城市一起生活的经历,都会在某一个节点出现一种惊人相似的轨迹。 02:53 就这样在逃离与愧疚之间反复横跳。 03:21 真正让人无力的,是你已经试过所有“正确”的方式,却一次次的失败。 03:40 当下似乎理解了,但下一次,一模一样的场景,一模一样的说辞。 04:21 然后他们开始委屈的沉默。。。 04:55 再进一步,你没法向他们证明你的人生是“对”的。 06:27 但现实中,并不是所有的关系都会以和解作为结局。 07:05 他们真正内化的一条人生信念是:“钱是用来防范风险的,不是用来享受的。” 09:12 父母用的是生存逻辑,而孩子用的是情感逻辑。 09:42 知道那条最难的边界,是不内疚的做自己。 09:49 理解父母不等于牺牲自己。 10:03 我们在外面追求“世界模型”,而他们的“世界模型”里只有你。 10:19 回家也不是为了和解,有时候只是看一眼彼此,确认都还在,然后各自回到各自的人生。 10:35 别忘了,“孝顺”这个词里面还有一个“顺”字儿,“顺着”他们,也是对彼此都温和的一种互动方式。

    11 分钟
  4. 1月31日

    E158 从像素到扭矩: Helix 02让机器人进入连续动作世界

    2025年2月,Figure AI在官宣放弃使用Open AI的大模型之后,展示了自主研发的机器人大模型 Helix,Helix 这个单一神经网络大模型,可以从像素级输入、输出控制一台人形机器人上半身全部动作。一年之后的2026年2月,Figure发布了下一代的Helix 02大模型,这个模型把控制,扩展到了整个机器人——将行走、操作和保持平衡统一为一个连续系统。 今天这期节目,就来介绍一下Figure的Helix 02大模型都有哪些能力,又是如何实现的;过程中,我会逐一解读一下涉及到的每一个机器人领域里面常见的说法和术语。 01:36 Figure机器人的零巧手还能够拧瓶盖儿,从药盒里取出单粒的药片,精准分配注射器当中的液体。 02:14 远程操控,teleoperation,是机器人行业的一个常见的做法。 02:32 这种做法本来的目的是用来训练机器人模型,让机器人学会跟人类学会去自主的执行相同的任务。 03:03 远程操控的做法,远比大家想象的用遥控器来遥控机器人 造的假,要真的多。 04:01 什么是“像素级输入”? 06:14 Helix02大模型代表了多项的突破,第一个突破就是自主的长时间跨度的运动操作一体化,loco-manipulation。 06:56 第二个突破就是,机器人对外部世界的感知过程,全部通过传感器来输入、然后直接通过执行器来输出。 07:21 第三个突破,就是基于人类数据的,像人类控制自己一样的“机器人全身控制”。 08:00 这里再介绍一下术语“仿真到现实”,"sim to real", 也就是similar to reality的简要说法。 09:57 上面这段解释当中又提到了“虚拟环境”、“模拟环境”,也就是机器人领域当中常说的“物理模拟器”。那什么又是“物理模拟器呢”? 12:02 “物理模拟器”,和物理“世界模型”可不是一回事儿。。 13:16 “灵巧手”又是机器人学领域里的一个专有名词,指的是。。。 14:04 Helix 02大模型,主要解决了人形机器人面临的哪些巨大的挑战呢? 14:16 几十年以来,loco-manipulation,即在运动过程中同时实现对机器人的动作操控,一直是机器人学领域里面最难解决的问题之一。 16:01 Helix 02 到底是如何解决“在运动当中、同时对机器人的动作进行控制”的挑战的? 16:17 相信这个“全身运动VLR模型"很快就会成为今年的热门名词 16:37 对Helix 01的System 1和System 2的细节感兴趣的听友可以去我的第101期节目。 18:34 接下来就详细介绍一下Helix 02当中新引入的这个System 0。 20:41 “跨越超过二十万个并行的环境”,指的是训练时,同时运行超过20万个独立的机器人和模拟环境。 21:00 这相当于让20万个机器人同时在20万个不同的场景当中试错和学习。 21:28 “进行广泛的域随机化”,是指在模拟训练当中故意随机改变各种物理和环境参数,让模型看到无数种变异版本的现实世界。 22:21 “在整个机群当中泛化”,指的是:同一个机器人的模型,不仅适用于单台机器人,还能够适用于整个机器人机群当中的每个机器人。 22:52 它的意义在于极大的降低了未来大规模生产和部署时的成本。 23:07 Helix 02除了引入新的System 0之外,对Helix 01版本当中存在的System 1和System 2的功能也做了扩展。 26:47 Helix 02真正重要的,并不只是机器人,又多会干了几件事儿。 视频 1: 一台 Figure 机器人执行了一项连续 4 分钟 的任务:走到洗碗机前,卸下餐具,在房间内行走移动,将物品放入橱柜中,随后重新装载并启动洗碗机——全程仅依赖机载传感器,无任何人工干预。https://videos.ctfassets.net/qx5k8y1u9drj/1cKhxhvotDvkyJx2rfq2IN/94f100629ab7a0bdb37d5b248f8f5760/Kitchen_Tidy_MP4_Compressed.mp4 灵巧手开瓶盖https://videos.ctfassets.net/qx5k8y1u9drj/21mBdGqjGKhKNDFaj8Km9o/511c689af0765c49efea64a6f1c3b64d/W-WOUT_HAND_SENSING_Bottle_2.mp4 灵巧手从药盒里拿药片https://videos.ctfassets.net/qx5k8y1u9drj/4qmA4zOxRnMFB8I78fCpUE/8b33300fc6e1e0503680bb38d0d256f3/W-WOUT_HAND_SENSING_PILLS.mp4 灵巧手从注射器里释放5毫升液体https://videos.ctfassets.net/qx5k8y1u9drj/4muRTBb9YPxrgBvrgrQjkO/d9b2d16b4ae07d7139ca6adc6143228b/W-WOUT_HAND_SENSING_Syringe.mp4 灵巧手从盒子里拿螺母https://videos.ctfassets.net/qx5k8y1u9drj/5wDQzY6MclJxCm62bKDOqt/8615e8369f182f45c316b139a2b2ce4c/W-WOUT_HAND_SENSING_METAL.mp4

    29 分钟
  5. 1月9日

    E157 从Manus被收购及审查,看轨迹数据对通用智能的重要

    Manus 和 Meta 分别高调官宣之后,媒体与自媒体也再次条件反射式地把 Manus 推上了“封神”叙事。在去年走红之后,这家公司很快完成了从“国内公司”到“新加坡主体”的身份切换,这很清晰的是在为潜在跨境并购做结构性准备了,按道理应该是综合考量过多方监管因素后的选择。 02:03 为什么双方一定要如此高调的对外官宣呢? 03:07 Meta收购Manus真实看重的是什么呢? 03:22 网上的表面叙事之一,说的是“Meta看中了Manus极强的AI Agent技术",这个叙事显然符合大众的口味。 03:58 网上的表面叙事之二,说的是"Manus 8个月做到了1亿美金的ARR",这个叙事非常符合创业成功学。 04:42 收购Manus,相当于帮Meta打开了一个训练并建立Meta的通用人工智能能力的、现实世界的强化学习环境。 05:32 当前的大模型几乎无法去自主的决定如何行动,因为大模型本身并不理解因果关系,就像一个刷题刷出来的牛娃一样。 06:12 在强化学习的语境当中,价值并不只来自于“做对了什么”,同样来自于“为什么会做错?” 06:53 正是这些不断出现的错误与偏差,以及相应的纠正,才让大模型开始接触真正的因果结构。 08:44 一个能够在真实世界中规模化的“产生 - 行动 - 结果 - 修正”这样的闭环系统,就为下一代具备世界模型、具备因果理解能力的通用人工智能,铺设了现实世界的训练土壤。 09:03 有意思的是,Meta收购Manus,并不是CEO小扎来官宣的,而是Meta收购的数据标注公司的创始人、“年轻高潜”亚历山大王官宣的。

    12 分钟
  6. 1月7日

    E156 老黄CES说的“物理AI的GPT时刻”跟“世界模型”,到底在说什么?

    美国2026 CES消费电子展上,英伟达CEO黄仁勋正式宣告了 AI 从“数字世界”向“物理世界”跨越,物理AI的ChatGPT时刻已经到来。这些话看起来又是每个字都认识,但和在一起很多人不知道他在说什么、到底在表达什么。这期节目就用朴素的语言,来把老黄的核心内容完整的解释一下。 01:58 没有听说过“世界模型”也没关系;接下来,今年这个词将很快的无处不在。 03:03 除了发布新一代的GPU,老黄还发布了英伟达的自动驾驶推理模型。 03:36 老黄强调,不同于传统的感应反馈式的模式,英伟达自动驾驶模型能够针对采取的行动来进行逻辑推理,比如“解释一下为什么选择了避让”。 03:51 英伟达这个自动驾驶模型能够做到这一点,就跟“世界模型”这个概念有关了。 03:59 除了自动驾驶模型,老黄还发布了英伟达的“第二代世界模型”,名字叫做Cosmos,为机器人大模型的训练而打造的一个模型。 05:05 实现这一转变的关键技术,正是“世界模型”,即能够模拟物理环境、预测运动、理解因果关系和自然法则的模型。 05:21 用大白话来解释一下,“世界模型”就是机器在自己的脑子里搭建了一份对“这个世界如何运转的内心地图和运行规则”。 05:53 高度依赖“数字世界”的训练方式。。。数据往往与模型当下的决策行为并不构成真正的因果闭环。 07:46 当前的机器人系统。。。不能在行动之前就可靠的预见后果,这在现实世界中是非常危险的。 08:17 目前的机器人大模型跟我们用的大语言模型一样,都是通过静态数据训练的。 08:24 静态数据训练本质上只能学到相关性,而不是因果可推演的结构。 08:33 静态训练数据的问题不在于静态本身,而是在于没有“反事实”,这里来解释一下“反事实”。。。 10:39 能够用于“行动 - 结果 - 修正”这个闭环学习的真实世界交互数据,极其稀缺。。。近期Meta收购Manus,提供了一个代表性的案例。 10:59 正因如此,当前很多机器人公司开始尝试通过“世界模型”的方式,让模型学习物理世界的因果结构和基本的自然法则。 12:42 从通用人工智能的训练的角度来看,数据的价值并不取决于对还是错,恰恰相反,错误决策所暴露出来的偏差、歧义和失败路径,往往是学习因果关系和修正世界模型最关键的信号。 13:09 说完了机器人训练中物理”世界模型“的重要性,再来看看自动驾驶。 14:20 拥有了“世界模型”的AI,像是一个在地球上生活了很久的成年人。 14:46 没有世界模型的机器只会条件反射,这在复杂的现实世界当中是非常危险的。 14:55 人类真正聪明的地方。。。是能够在行动之前先在脑中演练一次未来,“世界模型”本质上是在尝试把这种能力第一次交给机器。

    16 分钟
  7. 2025/12/17

    E155 当AI试图站在用户和平台之间:为什么豆包手机一出就被限制?

    12月初,搭载豆包手机助手的努比亚M153工程样机小范围发售,主要面向开发者和科技爱好者,供其体验豆包手机助手的相关功能。消息一出,除了引起市场关注之外,马上被各大app的互联网大厂限制、或禁止与其联动。 豆包手机到底有什么独特之处?为什么一出现,就让其他app大厂如此紧张?他们真的只是紧张豆包要获取众多权限、带来隐私与安全隐患吗? 01:10 先来简要说一下豆包手机被媒体宣传的“炫酷”功能。 02:22 绝大部分手机用户都还远没有到了日理万机,连购物比价格都没有时间的程度。 02:30 在手机上各大电商平台逛比价格,本身就是类似逛街一样的休闲娱乐。 03:03 查询火车票、查距离,设置闹钟,提醒什么时候该离家,这听起来确实对于大部分人来说是个有比较有用的功能。 03:30 那几个著名的订票平台,在订票的过程当中,会想尽一切办法让你“眼花”,或者是看错错点错,而多花了几十块钱儿。 05:23 豆包手机如何实现“跨应用比价”这样的自动化操作呢? 06:43 官方和拆解的文章,都提到了“截屏 - 理解 - 下发操作 - 再截屏”这样的一个循环。 09:02 为什么那么多的APP平台选择限制豆包呢? 10:32 会侵蚀平台的流量转化和广告变现能力。。。对互联网平台来说这才是最最关心 10:47 过去20多年,中国互联网公司最好的商业模式就是做成平台,然后坐收商家的佣金和广告费。 11:46 如果AI在用户和平台之间来主导用户流量的分配,那平台辛辛苦苦补贴出来的地位不就瞬间崩塌了吗? 12:29 真正重要的是,豆包手机第一次把一个很多互联网平台心照不宣却又极力回避的问题摆到了台面上。

    14 分钟

评分及评论

5
共 5 分
3 个评分

关于

科技不应该只是少数人的专利,每个人都应该能够理解和享受科技带来的好处。在这个快速发展的科技世界中,理解和跟上科技的步伐并不容易,能够穿透表象看到本质更为困难。我的目标是用通俗易懂的语言,将复杂的科技概念和商业话题讲解得明明白白。 主播老于在科技行业工作超过20年,曾在多家头部公司和独角兽企业担任要职。他在大型企业和初创公司皆有着将业务从零到一发展至盈利或全球过亿日活用户的经验。与许多科技从业者不同的是,老于曾直接负责研发、产品管理、销售运营、战略规划、合作伙伴拓展以及业务盈亏,涵盖了现代科技公司的所有方面。 老于对人类历史上规模最大的人工智能产品和用户反馈有着深刻了解,这使他在这一领域具备独特的洞察力。工作之外,老于热衷于心理学,并通过这一爱好获得了对人类行为和思维模式更深入的理解;老于还是一名规律的阿斯汤伽瑜伽练习者,这使得他思维敏锐、内在平静。

你可能还喜欢