最近了解了下智驾技术的演变发展,在这写下总结与思考。
现在头部汽车公司已将最新的智驾技术路线从端到端转到 VLA 、WEWA 。那为什么端到端被抛弃了呢?我看到的一种也比较认可的说法是:直接将环境信息数据(摄像头、lidar 等等)映射到轨迹规控(或者更低维的油门刹车方向盘控制指令),模型本身只是在做根据 2D 画面进行模仿学习,它不知道驾驶员这么做的深层逻辑---也就是知其然,不知其所以然。这也就导致泛化能力很差,当出现长尾/难 case 时,模型完全是“懵逼”的。
起初,我觉得从第一性原理出发(就实现自动驾驶而言),VLA 中的 L 作为要素加入模型没啥逻辑吧?就为了车机屏幕显示 COT 思考和语音控车? 直到我看这个观点---语言即逻辑。上面我们说到端到端的问题是知其然不知其所以然。现在我们可以将 L 作为驾驶者开车的逻辑思考的表征作为数据跟随 V ,放进模型训练,那不就可以让模型学会"逻辑推理"了? 这个观点对于我来说是 make sense 的。因为加入 COT 后的 LLM 在功能性上表现的就是具有逻辑推理能力(注意我说的是功能性),本质上也是它的训练数据里有很多逻辑推理的语言 pattern
从 WEWA 有限的资料来看,我觉得它范式还是端到端那套。只是通过 WE (世界引擎),在仿真世界里将难处理的长尾 case 密度拉高进行强化学习。我觉得它走的是"力大砖飞"的方法论,无所谓所以然,只要数据够多,当模仿到极致,然与所以然的界限就模糊掉了。毕竟 LLM 的本质不也只是预测下一个词的概率么?
我觉得上面两个路线都有可能实现 L3/L4 ,无法直接证伪说哪个肯定不行。但是从上限和可扩展性来说,VLA 无疑更甚一筹我觉得。VLA 这套框架/范式可以说是为具身智能打造的,这套弄通了到时候迁移到诸如机器人上面会很顺畅。
另外从上限来说,我很久前在知乎上看到过一个回答关于自动驾驶能力限制的:对于伦理问题,比如电车难题,智驾怎么办?它超脱了对错的维度,更像是基于三观的一个选择。而 VLA 模型的 L ,就像一个窗口可以注入 owner 的价值观,让其做出的行为与你的意志匹配。
综上,是我一个外行人的浅思。欢迎行业内的朋友指出错误及讨论交流~
1
longzhou6431 14 天前
从标题开始,我就没有兴趣了。明明是辅助驾驶,为什么冠以智驾的标签。很多无知的黄毛,听到智驾就真的会认为无需人工参与驾驶,最后发生事故,害人害己。
|
2
Tink PRO - 语言即逻辑
并不是,其实大多数驾驶员,最终驾驶都是肌肉记忆而已。也就是看到右前方有车,下意识方向盘就会向左 |
3
wilddog 14 天前
比较认可,说白了从模型的角度都离不开 V L A ,各家的路线无非是采用的具体方案落地时,对这三个环节各自进行自认为合适的处理方式罢了。
毕竟车载硬件能采集的信息也就那些。 |
4
stinkytofux 14 天前
你们平时真的敢用智驾开车吗? 我真不敢, 一次都没用过.
|
5
frankies 14 天前
摄像头并不是 2D 画面啊。建议进一步学习了解 CV 中的双目视觉(视差)、占用网络、NeRF 或 SFM 快速 3D 重建等基础前置知识,纯视觉方案是完全可以实时构建 3D 立体场景且目前普遍使用的方案,所谓的 VLA 、世界模型并不是一条新的更有优势的路线,而是各有优劣的,需要 trade off 的。
|
6
cynics 14 天前
有机会试试 Tesla 最新的 FSD 就知道了,我现在只要开家里的 model3 出门,都会用 FSD ,尤其晚上,比我自己看得更清楚
|
7
metalvest 14 天前 via Android
人驾车并不是基于逻辑的,而是基于预测的,只不过这个预测很大程度是符合逻辑的
|
8
wisej OP @Tink 这句话我本身也不认可(本末倒置了)。但是语言可以是逻辑推理的表征毫无疑问。
"肌肉记忆"我认为是千万次重复后,人体系统演化而来的能效优化的结果。它的底层依然是神经元连接,只是不需要人脑中的高级部分再参与了(所以能耗、延迟都更低)。端到端其实就很适配开车中“肌肉记忆”的场景(所以高速表现挺好的)。 而且开车场景不全是肌肉记忆,有~5%的场景是需要逻辑思考的。拿掉头来说,我的思考 path 可能是:1.有没有掉头专用灯 2.有没有双黄线,怎样的形态 3.左转灯状态。对于我来说,它不是“肌肉记忆”,需要逻辑思考。你说有没有人能把它做成肌肉记忆,我觉得可以,只要他重复千万次或许能做到看一眼就知道怎么开的“肌肉记忆”---但那本质不也是训练后内化的神经网络权重参数么 |
9
wisej OP @stinkytofux 就第一次会有些忐忑,后面还好~ 而且我只在高快上用,城区不用。我觉得高快场景很简单了,现在辅助驾驶能很好 cover ,能节省非常多精力。但是确实需要知道能力的边界,保持专注
|
11
wisej OP @frankies 确实很多领域内名词,需要学习=.=
VLA 我还是觉得上限更高,但是对算力要求也更高(目前车端的算力不太够?)。至于世界模型仿真 RL ,VLA 也能做不冲突。可以具体说说各自的优劣嘛? |
14
songco 14 天前 via Android
我比较看好特斯拉这种,大力出奇迹,哈哈
|
16
cynics 13 天前 via iPhone
@wisej v14 已经不叫 FSD 了,升级后直接就显示 self driving, 我的体验是比 90%的人开的好,除了一些 corner case 需要接管。
|
17
unco020511 13 天前
我每天都用辅助驾驶,真的挺好用的,车子是理想,他们家目前是基于 vla 路线
|
18
wisej OP @unco020511 城区还是高快?高快现在各家都很不错了
|
19
unco020511 12 天前
@wisej #18 城区
|
20
Muyun 7 天前
推荐一下从技术上对端到端的一些科普~: https://zhuanlan.zhihu.com/p/684290204
|
22
Muyun 5 天前 @wisej 现在不算是智驾的从业者了,转到机器人了,做的还是 VLA 的事情。就我个人而言,智驾体感上实力比较强的供应商还是地大华魔这四家,主机厂是理想小鹏,感觉理想转到 VLA 之后声量弱了一点。其他的没有试乘过,不做评价,Tesla 很强,但在中国水土不服,如果能解决数据的问题,应该很厉害的
从我们算法的角度来看,VLA 、World Model 都是一样的东西,都是端到端的架构,这个范式很重要,让自动驾驶真正进入了 data-centric learning-based 迭代。模型需要学的能力核心其实还是这个 VA 模型中,vision 到 action 的映射,而这个映射是从极高维度转移到极低维度(多摄图像是 N * 1280 * 720 这种维度,会过 resize ,看算力大小,但是 action 维度极低,trajectory 就是 N * 个位数这种维度),会导致模型学到很多捷径,比如一直直行我就能 cover 大部分场景,或者一直跟车启停,那模型就偷懒了。所以 Language 和 world model 的加入都是来缓解这个问题 1. VLA 路线:LLM/VLM 有 scaling law ,那么借力打力,拿一个通识能力比较强的模型来提取一些有效的 feature 约束我的 observation -> action 的映射不要学到一些捷径,但大家用过 VLM/LLM 能感受到这些模型的幻觉,所以要把前面这个 Language 用好可能是比较困难的(也可以听张小郡和小鹏新负责人刘先明的 talk ,language 的作用还有待验证和加强) 2. world model:这个东西大家都在做,事实上希望加一个辅助任务,希望能够预测未来。如果能预测未来,那么也能对当下有更好的理解。很多厂商讲的故事更大,想把 world model 用于训练评测,对当下的理解以及对未来的预测是否准确,决定了 world model 是否能作为一个仿真环境去用于训练和评测。就现阶段而言,我觉得能卡掉一部分有问题的模型,也能够初步结合 RL 的范式训起来,但没有达到大家去做这件事的预期。所以 world model 这个路线,现在的用法也可以理解为是一种辅助监督,用于约束 observation -> action 的映射学的更好。至于训练/评测,或许还需要几个技术突破才能达到可用的水平 所以最终回归的还是大家先做基建 infra ,先把 vision-action pair 的数据积累的多多的,上面两个路线同步推进,场景积累的越来越多,大家越来越愿意用智驾,数据回流就能做的越好越好,是一个正循环。所以有积累的主机厂(小鹏、理想等等)+ 比较强的 infra 实力(影子模式之类的)能够在比较短的时候把能力给提上来 最后还是提醒大家城区少用 AD ,你无法预测鬼探头、电动车、路上的盒子塑料袋这些会造成什么影响,生命安全最重要,高速上 AD 做的比较成熟了,在好的工况下(非大雾、大雨、堵车)可以逐步解锁,摸索他的能力,找到人机共驾的感觉 |
23
wisej OP @Muyun 非常感谢,回答很有帮助&启发。
1.确实,端到端是一种技术范式,走向数据驱动 2.L 还有一点好处它能理解环境语义(得益于 LLM 的通识),比如施工牌、交警手势,上限感觉还是高的。但是对算力要求会更高? 3.所以 VLA 是通过 V>L>A 来防止高维到极低维的信息 loss 么,这 latency 会很高吧? 4.vision-action pair 的数据积累,不知道算力和数据对于 AD 更是瓶颈呢?其实我之前没意识到数据的问题,确实 VA 的数据不像 LLM 好获取。而且城区不好用大家不愿用,负反馈循环了..但是车企有宣传比如 1000w clips ,不知道这量级算多算少。 5.world model ,理想、华为宣传上好像是已经在用做仿真和 RL 训练了。理想联合发的有个 paper 4D Gaussian ,我理解就是带有预测的交通世界模型来仿真。不知道"还需要几个技术突破"具体指啥? |