电子替身

从端到端到世界模型,智能驾驶如何翻越四座大山

从端到端到世界模型,智能驾驶如何翻越四座大山?

真正的L3/L4啥时候能到来?

AI老司机的感觉是怎么培养出来的?

本期《电子替身》邀请到了卓驭科技CEO沈劭劼,阿里云智能集团AI汽车线总经理李强,与大家分享目前智能驾驶的技术演进路线;为什么做端到端;VLA的价值;如何从汽车的角度看世界模型;另外也探讨了真正的L3/L4实现的方法。

【主播】

高飞,至顶科技CEO兼总编辑

【嘉宾】

沈劭劼,卓驭科技CEO

李强,阿里云智能集团AI汽车线总经理


【你将听到】
一、从百万行代码到端到端:一个痛苦但必要的决策
1、技术路线的转折点
-规则时代的天花板:到2023年,基于规则的城区领航系统代码量达到百万行级别(仅决策规划,不含感知),但城市接管率怎么都降不下来,性能停滞不前
-端到端的降维打击:转向端到端后,城区复杂场景的接管率直接降了10倍,这是数量级的差异,不是小幅优化能解决的
-决策的关键时刻:2024年下决心彻底转向端到端,虽然CEO沈劭劼是"写规则出身"的机器人背景,但秉承"打不过就加入"的务实态度

2、“为学日益,为道日损”的技术哲学
-从加法到减法:七年时间不断添加规则,试图用代码覆盖现实世界的所有可能性,这是"为学日益";但当端到端出现时,真正的突破是减法——让机器自己学会判断,这是"为道日损"
-从Say Yes到Say No:以前工程师要写规则告诉车怎么动(Say Yes),现在模型输出多条轨迹,工程师只需要否决不安全的(Say No),从正向解复杂非线性优化问题变成简单的空间验证
-拟人化驾驶:端到端让车的行为更像人,能与其他交通参与者形成默契,而不是像个生硬的机器

3、端到端带来的质变
-预判而非反应:鬼探头场景下,系统不是反应更快,而是学会了"不肯加速"——车辆表现出了近似人类的预判能力
-绕开而非刹停:测试AEB时,车会主动绕开障碍物而不是急刹,"人类司机开车反而比较容易测AEB"
-涌现能力:系统学会了人类司机的直觉,让驾驶变得拟人,解决了机器与其他交通参与者之间的"默契"问题

二、技术演进路线图:从模仿学习到世界模型
1、三个阶段的清晰定义
(1)模仿学习(当前):输入数据输出轨迹,像用"小脑"开车,处理大部分驾驶场景但缺乏复杂场景理解
(2)VLA(Vision-Language-Action,2025年下半年):整合视觉、语言和行动能力,加入语义理解能力,解决主辅路选择、复杂路口选道等需要"大脑"的问题
(3)世界模型(愿景阶段):真正理解物理世界,能处理从未见过的场景(如钢卷掉落、山体滑坡),基于物理推演而非数据模仿
2、时间线预测
-L3落地:需要后验证明(1万小时碰撞不超过1次),预计26-27年政策出台,高速场景会先行
-VLA技术:2025年下半年技术上基本成熟,但仍是让L2++系统变得更好用的思路
-舱驾一体:2025年10月就会量产,一个芯片同时跑座舱和智驾
-世界模型上车:这是"许愿"状态,怎么做、怎么部署都还不清楚,但趋势确定

三、四座大山:智能驾驶的资源配置学
1、成本与性能的平衡术
-双目方案的系统性价值:卓驭坚持双目立体视觉,不仅是深度感知,更重要的是大幅降低了数据需求和算力需求,训练资源能降低2-3倍,直接影响"一年是需要5亿还是50亿做模型训练"
-算力投入的真相:每年几个亿的算力费用,但真正用于最终模型训练的不超过10%,90%都是试错成本,这是先行者必须承担的探索代价
-算力晴雨表:阿里云的一个数据,2025年3月某一天,在汽车领域,AI算力消耗超过CPU通用算力,到5月底占比已达55-56%,这个趋势不可逆

2、数据的质量vs规模
-数据悖论:几十万辆采集车每天的数据"光存都存不下",但绝大多数是在空旷高速上的无用数据
-智能挖掘:在车端部署专门的小VLM模型,不负责驾驶但专门判断"什么数据有意思",驾驶员的接管行为也作为高价值数据的信号
-从人工到智能:最开始靠人工标注(有多少人工就有多少智能),后来用大模型做半自动、全自动标注

3、特斯拉的启示
-10万卡算力中心:特斯拉作为第一个把端到端落地的先行者,承担了更多试错成本,需要更大的冗余来探索不同路径
-中国的现实选择:国内公司通过更精细的软硬件协同设计,在有限预算下达到接近的效果

四、商业模式的灵活性:不是只有"交钥匙"
1、多样化的合作模式
-完整交钥匙:传感器、控制器、软件、数据闭环全包,这是能力的体现但不是唯一选择
-部分集成:提供控制器和前视双目,其他传感器由主机厂或第三方提供
-纯软件合作:只提供软件,跑在主机厂的硬件上
-IP授权和赋能自研:更深度的技术转移,部分代码会随合作深入转移给主机厂

2、成功的关键
-兜底能力:让主机厂用最省心的方式实现智能化,"优质的兜底"是打动9家车企的核心
-保持开放:不要对商业模式有执念,根据客户能力和诉求灵活调整
-共同价值点:抛开各种杂音,核心就是"把车卖好"

五、一体化哲学:工程美学的体现
1、技术架构的演进
-软硬一体:像人需要大脑和身体协调,软件和硬件必须螺旋式共同进步,前后端会互相影响,需要一起权衡优化
-舱驾一体:避免重复部署模型浪费1.7倍算力,通过共享内存让VLM等模型复用,360环视"谁想用谁用",解决黑屏等工程问题
-不多也不少:好的工程方案应该让人觉得"刚刚好",资源的优雅整合而非功能的简单堆砌,这是一种技术美学

2、具体案例
-360全景的实现:传统架构需要从驾驶控制器通过以太网传到座舱显示,既耗算力又可能黑屏;一体化设计则是"共享内存,谁想用谁用"
-管理的TDMA:沈劭劼用通信术语形容自己的时间管理——时分复用,在技术修养和团队管理之间通过时间分配实现整体优化


3、核心洞察(Q&A形式)
Q1:为什么2024年是智能驾驶的分水岭?
A:因为基于规则的方案已经触及天花板,百万行代码仍无法降低接管率,而端到端带来了数量级的性能提升。这不是优化问题,而是范式转换。更重要的是,这个转换不可逆——一旦看到10倍性能差异,就不可能再回头。这是从"为学日益"到"为道日损"的哲学转变。

Q2:中国智能驾驶最大的挑战是什么?
A:不是技术,而是"预算"。每家公司都想要特斯拉那样的10万卡算力中心,但现实是要在有限资源下做到最优。这就需要更聪明的方案,比如用双目降低数据和算力需求2-3倍,用车端模型筛选高价值数据,在云端和车端找到最佳平衡点。关键是系统性优化而非局部优化。

Q3:智能驾驶的终局会是怎样?
A:世界模型上车后,理解物理世界的AI将不仅用于汽车,还会延伸到机器人、无人机等所有需要与物理世界交互的场景。但这需要时间——从规则到数据驱动的转换用了40年(虽然端到端会更快),技术范式的每次转换都会比想象中慢,但一旦成功影响会比想象中大。

【在这里找到我们】公众号:科技行者(ID:itechwalker)
收听渠道:喜马拉雅|苹果播客|小宇宙|蜻蜓FM
联系我们:zhou.ya@zhiding.cn