上海人工智能实验室团队荣膺Waymo挑战赛桂冠 | CVPR 2022 上海人工智能实验室

6月20日，CVPR 2022自动驾驶研讨会（Workshop on Autonomous Driving）[1] 公布Waymo开放数据集挑战赛结果，上海人工智能实验室自动驾驶与通用视觉团队凭借BEVFormer++模型大幅领先，摘得纯视觉3D检测项目桂冠。

Waymo开放数据集挑战赛结果

Waymo开放数据集挑战赛是自动驾驶领域中算法研发方面最重要的国际性大赛，以任务难度高、高手云集而著称。今年，该比赛更是吸引了众多学术界和产业界的自动驾驶研发团队参加，组委会共收到超过1700份有效申请，创下历史新高。参赛队伍不仅包含来自MIT、德国伯恩大学、南洋理工大学、香港中文大学、清华大学、浙江大学等全球20多所高校的团队，也不乏来自奔驰、地平线、小鹏等产业界的优秀选手。本次获殊荣的BEVFormer++算法通过融合“历史记忆”的鸟瞰图（Bird’s Eye View, BEV）特征，并实现在多任务中的共享，获得了超过60%的性能提升。相关论文《BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers》已于今年3月在arXiv平台发布[2]，BEVFormer的代码[3]亦已在GitHub公开。

Waymo挑战赛自动驾驶场景示意图。左图：鸟瞰图视角；右上：座舱内视角；右下：前视视角（图片引自Waymo官网）

实验室自动驾驶与通用视觉团队在视觉感知领域有长期的技术沉淀与经验积累，在本次大赛中创造佳绩的3D检测算法BEVFormer++，来自于团队2022年3月提出的BEVFormer升级版。实验室青年科学家李弘扬介绍，“团队从2021年起开始关注BEV感知并进行深入研究。通过洞察自动驾驶业界的发展趋势，结合当时学术界最热的Transformer结构，我们将不同传感器、不同时空下的特征以BEV视角进行统一表达。”

【性能提升60%，BEVFormer++创佳绩】

今年的Waymo开放数据集挑战赛聚焦计算机视觉算法在解决自动驾驶运动和感知问题方面的进展，共设置了运动预测、地图栅格占据和运动流预测、纯视觉3D检测以及3D语义分割4个项目赛道。其中，纯视觉3D检测项目要求选手基于来自多个摄影机的图像，为场景中的可见对象生成一组3D框。该项目在今年提高了评定标准，要求选手在仅能使用摄像头输入（Camera-only）的条件下对目标位置进行精准检测，考验其使用视觉输入建模3D场景的能力。

纯视觉3D检测算法BEVFormer++，综合考量了之前学术界最新的研究成果，基于时序特征积累和空间特征融合，创新性地提出了一套新方案，将时序信息、多检测头集成和LET-IoU NMS等模块有机地统一到时空融合的Transformer BEV感知架构中，实现了在自动驾驶场景下对目标进行更精准的检测，同时有效去除假阳结果。相比基线方法，BEVFormer++获得了超过60%的性能提升，最终取得了56.2 LET-mAPL的成绩，在榜单上大幅领先于其他参赛选手。

Waymo数据集可视化结果.gif

Waymo数据集可视化，相比基线方法，BEVFormer++获得了超过60%的性能提升

此外，值得一提的是，在Waymo挑战赛的3D语义分割项目赛道中，团队提出了一种新的3D点云语义分割算法，提升了前景物体分割结果的整体性和在稀有类别上的分割性能。该算法以71.18 mIoU的成绩在该赛道中表现亮眼。

【共享“历史记忆”，解决两大痛点】

BEVFormer++算法有效解决了智能驾驶既往存在的两大痛点：一是无法对图像中物体的运动状态进行判断，并且难以很好地捕获被遮挡物；二是针对多感知任务只能分别设计，面临计算量大、不同模型感知结果不一致等问题。

BEVFormer算法解决了自动驾驶中遮挡物、多任务等行业痛点

针对第一点，BEVFormer使用一组预先设定的可学习参数用于表征鸟瞰图特征，这组参数被称之为鸟瞰图询问向量Q。基于稀疏注意力机制，使用鸟瞰图询问向量Q与多视角图像特征进行交互，可以捕获空间信息；通过使用当前时刻的鸟瞰图询问向量Q和上一时刻的鸟瞰图特征进行自注意力交互，可以捕获时序信息。由于被遮挡的物体并非一直处于被遮挡的状态，在历史上可能完整地出现在相机视角中，所以BEVFormer可以通过时序信息提取被遮挡物体曾经出现时的特征，即在“历史记忆”中提取物体特征，并将其与对当前时刻有价值的信息融合，从而较好地解决了遮挡问题。

针对第二点，基于融合了时空特征的鸟瞰图特征，该算法可同时支持所有能在BEV空间下输出的自动驾驶感知任务，使不同任务可共享鸟瞰图特征，从而生成一致的感知结果。而且，由于实现了耗时最多的骨干网络和鸟瞰图特征生成器的共享，算法感知的计算负担得以大幅降低，从而有效降低获取所有感知结果延迟，并显著提升推理速度。

nuScenes数据集可视化结果.gif

BEVFormer在nuScenes检测数据集的三维目标检测任务上取得了56.9% NDS 的成绩，较历史最好成绩提升9个点

BEVFormer的推出，在学术界引领了对BEV感知研究的广泛关注，同时也为产业界解决多目相机前融合、时序信息融合等问题提供了参考。这一方法打破了原有基于深度信息的传统感知框架，无需严格依赖3D先验知识，可自适应学习BEV特征，对于BEV感知性能的提升具有重要意义。实验室的BEVFormer系列研究工作为探索相机感知算法性能上界提供了新思路，为如何以低成本达到激光雷达算法性能提供了新方案。

注释：

[1] CVPR 2022 Workshop on Autonomous Driving网址：//cvpr2022.wad.vision/

[2] 论文链接：//arxiv.org/pdf/2203.17270v1.pdf

[3] 代码：//github.com/zhiqi-li/BEVFormer

comm@pjlab.org.cn

上海市徐汇区龙文路129号国际传媒港L1楼

沪ICP备2021009351号-1

科研动态

上海人工智能实验室团队荣膺Waymo挑战赛桂冠 | CVPR 2022 上海人工智能实验室

网站地图