自动驾驶格局动荡：抖音否定激光雷达纯视觉迎来黄金时代

· 2024-01-28 12:15:23

　　打败你的不是对手，而是跨界！

　　TikTok也就是抖音团队发表了一篇论文《深度无所不能》，其训练出的全方位深度学习模型，只需单张照片帧即可进行LiDAR质量深度估计。换句话说，只需拍摄一张照片，学习模型便能精准获取照片中物体的三维位置，比LiDAR技术还要出色。

　　毫无疑问，抖音的深度学习模型打败了激光雷达。新的模型表明纯视觉方案是可行的，实现无人驾驶并不需要激光雷达。对特斯拉，以及国内的极越等纯视觉智驾车企来说，这无疑是巨大的利好。

　　自动驾驶在技术路径上，主要分为两派系。

　　多模态融合派主要是依靠激光雷达的回波反射，为车辆在行驶环境中提供静态和动态物体的识别数据，绝大多数自动驾驶公司均采用这一方案。“纯视觉派系”使用摄像头等被动探测设备，不发射任何探测信号，不依赖雷达回波感知外部世界。目前仅有特斯拉、极越两位玩家。其中特斯拉主要针对海外市场，极越主要针对国内。

　　两大派系的最大争议在于感知系统要不要使用激光雷达。

　　多模态融合派认为摄像头捕捉到的信息均为平面信息，无法获取物体的三维信息。激光雷达捕捉到的是点云信息，可以获取物体的三维信息。

　　纯视觉派系则认为只要具备完善的算法大模型，纯视觉方案也可以提供可靠的物体识别信息。目前纯视觉路径已经形成了BEV+Transformer为核心的技术体系。

　　需要特别强调的是，尽管多模态融合派系倡导激光雷达，但在感知算法中依旧采用了纯视觉派系的BEV+Transformer。激光雷达仅在部分极限场景时使用。从去年的发展来看，多模态融合派正在大幅砍掉激光雷达使用量，主流车型从此前的三颗激光雷达降低到现在的单科方案。

　　在国内的智驾车企中，仅有极越一家坚定走纯视觉路线。这主要是因为纯视觉方案有着更高的技术要求，非常考验车企的团队能力，以及算法能力和数据积累量。国内的新势力车企由于成立较早，并没有强大的算法团队，也就是专业的数学人才队伍。无人驾驶方面，新势力尚未实现，无法积累有效的可用数据。鲜少新势力直接上纯视觉。

　　另一方面，极越是由百度和吉利强强联合赋能。尤其是百度作为无人驾驶的全球顶级企业，在团队和算法以及数据积累方面，具备得天独厚的优势。

　　例如，在L4/L5级纯无人驾驶的数据积累和商业化运营中，截至2023年9月，百度Apollo L4自动驾驶安全运营测试里程累计已超7000万公里，百度萝卜快跑已经提供了累计400万次无人出租车服务。

　　由于百度已经实现了L4级自动驾驶，极越纯视觉方案可以轻车熟路，快速发展。这也使得极越并不需要在BEV+Transformer的算法架构中进行过多的停留，而是一步到位，直接引入OCC占用网络技术，形成完整高阶智驾体系，领先“BEV+Transformer”路线一代。

　　特别是OCC占用网络，作为“纯视觉”方案核心技术之一，OCC将空间划分为多个立体小方格，每个小方格被称为“体素”。当摄像头捕捉的图像连续不断的输入给OCC，OCC就会观察图像对应的空间，每个体素的状态是被占用还是自由。正如我们面前的电脑一样，我们可以用无数个小方格形成一个电脑，这样我们就不需要知道面前的到底是电脑还是木板，只需要知道它多大，能不能避开。

　　在极越CEO夏一平看来，占用网络上车的一个最主要初衷，就是替代激光雷达对目标的距离、位置关系等等感知能力。

　　根据极越发布的OCC演示视频，极越01对周围环境有着强大的感知能力，用3D体素清晰地展示了栏杆、绿植、路障等标准障碍物，同时还精准识别出了施工中的工程车、树木中的路灯等异形障碍物。

　　其中蓝色网格代表静态建筑物，如隔离带、施工围栏；橙色代表动态交通参与者，包括机动车、非机动车；还有紫色马路沿、绿色绿化带等。每一个网格约15厘米，感知质量非常高，识别也相当准确。

　　在算法优势的赋能下，极越01作为全球唯一一款依靠“纯视觉”感知算法，“全程0接管”跑通中国复杂城市道路的智能汽车，极越01在开启PPA状态下，可以在高速、高架中，完成自主变道超车、上下匝道、轻松避障等一系列智驾领航；在城市道路中，还能够实现精准识别斑马线、红绿灯，完成礼让行人、无保护左转、避让非机动车等能力。

　　值得一提的是，极越的高阶智驾并没由局限在高速和城市道路。极越01还能实现AVP代客泊车，支持最远距离为2公里，室内和室外停车场均可使用，且支持任意车位到停车场出入口的泊出泊入。在狭窄车位，用户还可以实现车外语音泊车。业界将这种融合行驶场景和泊车场景的智能驾驶称为“行泊”一体。

　　截至目前，极越高阶智驾的核心功能点到点领航辅助PPA已覆盖全国90%的高速高架，城市NOA已经北京、上海、杭州、深圳等四大主流城市实现落地，今年将覆盖全国200多个城市。

　　据夏一平透露，极越“纯视觉”方案端到端的训练以“周更”的速度快速迭代，并且随着交付量的快速攀升，还将让极越高阶智驾呈现指数级进化。

　　坦率的说，目前的高阶智驾方案绝大多数均是“纯视觉”方案的衍生。包括华为在内的融合感知派并没有摆脱对纯视觉“BEV+Transformer”架构的依赖，也没有硬件方面能去掉摄像头。反倒是引以为豪的激光雷达从四颗全向覆盖，砍到三颗，最后砍到单颗，象征性存在。也因此，在智驾行业中有一个十分有趣的说法，算法不灵，才上激光！

自动驾驶格局动荡：抖音否定激光雷达 纯视觉迎来黄金时代

自动驾驶格局动荡：抖音否定激光雷达纯视觉迎来黄金时代