人工智能正经历一场新的范式转变。自动驾驶经历了三次关键跃迁:模块化与规则驱动 → BEV+Transformer 的空间与时序融合 → 端到端大模型的工程收敛。与此同时,机器人正从多样化硬件与稀缺数据的混沌期加速起步,智驾在芯片、视觉、标注与数据闭环上的经验,正在被系统性地迁移到具身智能。
学界与产业的焦点正在转向「三维几何的统一解」。VGGT(Visual Geometry Grounded Transformer,CVPR 2025 Best Paper)尝试以 Transformer 统一表征多视角几何关系,将传统 SfM/MVS/SLAM 的分步优化,替换为端到端的可学习框架——这被视为三维几何的重大范式变化与潜在拐点。
在这期对谈中,地瓜机器人技术副总裁隋伟深入解析:为什么自动驾驶进入工程收敛,而机器人仍处于前沿探索;BEV、占用网络与数据闭环如何「复用」到机器人;以及 VGGT 对 3D 感知、定位与操作泛化的实际价值与边界。我们也讨论了当下 VLA 的落地瓶颈、为何应「先从 VA(vision→action)做起」,以及面向 1.0/2.0/3.0 不同形态机器人的通用算法底座该如何演进。
隋伟提出,VGGT 有可能改变未来十年的 3D 视觉技术架构,这也是我们首次对 VGGT 的论文与实践落地做深度解读。这是一个新的临界点:当几何大模型开始改写三维感知范式,AI 正在逼近具身智能的主战场。
「本期主持」
大吉(微博@42号车库-大吉,小红书@大吉),42号车库创始人。
「本期嘉宾」
隋伟(小红书@隋伟),地瓜机器人技术副总裁,中科院自动化研究所博士,长期担任 ICRA、IROS 等机器人会议的审稿人,同时担任《智能驾驶和机器视觉》《智能驾驶与多维重建》等自动驾驶相关著作的主编。
「时间戳」
Part 1 自动驾驶的收敛与机器人早期探索
00:03:40 自动驾驶的三次跃迁:模块化 → BEV+Transformer → 端到端大模型
00:06:12 智驾经验的迁移:芯片、视觉、数据闭环延伸到机器人
00:09:18 汽车硬件标准化 vs. 机器人硬件形态分散
00:12:05 数据挑战:汽车有规模数据,机器人依赖仿真与合成
00:15:26 算法探索:VLA 展示潜力,但框架尚未定型
Part 2 技术前沿:VGGT 与三维几何大模型
00:20:10 VGGT 可能改变未来十年的 3D 视觉架构
00:23:04 Transformer 统一 SfM/MVS/SLAM,替代分步优化
00:26:55 双臂任务实验:纯视觉重建效果超越 RGB-D
00:30:47 从 BEV 到占用网络:三维重建的新范式变化
00:34:18 世界模型的意义:几何大模型可能成为基础模块
Part 3 落地挑战与产业前景
00:40:12 VLA 的现状:展会上秀肌肉,距离落地仍远
00:44:30 工程务实路线:端到端模型提案 + 规则兜底
00:48:22 自动驾驶 vs. 机器人:舒适性 vs. 脱困问题
00:52:18 特斯拉的作用:从 BEV 到 Optimus,仍是行业先驱
00:58:03 芯片与生态:功耗约束、技术预判、教育推广
Part 4 技术人的路径与未来选择
01:04:12 从北航控制到图像处理,再到三维视觉与 AI
01:09:45 对学生建议:兴趣驱动,尽早立志并入局
01:13:28 科研灵感与偶然性:如何抓住时代窗口
01:16:50 下一代开发者:生态建设、套件普及与「下一个王兴兴」
「相关资料」
整理后的文字稿
隋伟提到的论文
「AI 只能替换特征检测、匹配的模块,甚至 SLAM 里的回环检测等模块。这类感知识别任务是可以通过 AI 解决的,但 BA 还是解决不了。」
「未来一两年之内,SLAM 和 Structure-from-Motion 的架构肯定会发生很大的改变。」
本期提到的名词
《无限不可能引擎》是一档以智能汽车为起点,延展至 AI 硬件与机器人时代的深度对话栏目。我们关注的不止是技术本身,而是技术迁徙之下,那些不断转换身份的人。技术的创造者、产品的构建者,以及趋势的参与者,他们怎么思考新的世界,又怎么应对旧的问题。
情報
- 番組
- 配信日2025年8月28日 14:10 UTC
- 長さ1時間24分
- 制限指定不適切な内容を含まない