科研动态

Dynamics

首页 >  科研动态 > 新闻  >  详情

自动驾驶前沿分享:关于感知决策一体化的架构设计

11月28日,机器学习和计算神经科学国际顶级会议NeurIPS 2022(Neural Information Processing Systems)将在美国新奥尔良召开。上海人工智能实验室自动驾驶课题组携科研成果赴会前特别撰文,分享关于自动驾驶感知决策一体化的架构设计思考。

动图1.gif

【端到端自动驾驶的发展】

自动驾驶是当前人工智能领域颇受关注且具挑战的产业方向,是推动全球汽车工业变革的重要科技力量。传统自动驾驶算法体系将自动驾驶分为感知、决策、规划与控制,模块化完成自动驾驶任务。而端到端自动驾驶,则是基于人类根据场景信息直接输出控制信号这一驾驶过程,通过端到端网络直接输出车辆的轨迹规划或控制信号。传统模块化方案的优势是低耦合、可解释性高,但往往会丢失最优性;相比于传统方法,端到端自动驾驶最优性更佳,同时人为设计更少,因此也对算法提出了更高的要求。

b4f476a98af6aa37c006ba3423240c7.png

传统自动驾驶方案与端到端自动驾驶方案对比

61741c73fb29e585c4e46b7156b3d8a.png

端到端自动驾驶学术界发展脉络图(1988 - 2023)

如上图所示,随着学术界与产业界推动,感知决策一体化的端到端自动驾驶受关注度不断提升。在已举办的CVPR 2022自动驾驶专业论坛上,来自加利福尼亚大学伯克利分校、多伦多大学、特斯拉、英伟达等高校和企业的研究人员对感知决策一体化相关工作进行了分析与探讨。

在即将召开的NeurIPS 2022上,上海人工智能实验室自动驾驶课题组将参会展示自动驾驶感知决策一体化相关成果。以下内容重点围绕预研工作和工程落地方面的进展展开分享。

765aa08fa043851c5cd4f00a903606b.png

本文主要内容概览——端到端自动驾驶


【预研工作】

大规模数据预训练

在通用视觉中,已经有丰富的大数据自监督预训练方法,端对端自动驾驶只需解决在感知决策一体化模型中的迁移问题。但这些数据中往往包含着大量与驾驶决策无关的信息,对于驾驶任务而言,下一步往哪里行驶、信号灯是否允许通行等才是真正需要关注的信息。

707af2d1ad2bdf21cb06d6d00f88a45.png

PPGeo研究动机:基于自监督几何建模的自动驾驶策略预训练方法

如何让感知决策一体化算法自动过滤不相关信息?

来自美国加州大学洛杉矶分校的周博磊团队提出了Action-conditioned COntrastive Learning(ACO),利用网上数据打伪标签,关注转向信息在特征提取骨干网络中的表征,通过数据预训练来提升网络性能,受到业界广泛认可。

此外,在近期的ICLR 2023双盲评审Openreview网站上,一项题为 Policy Pre-training for Autonomous Driving via Self-supervised Geometric Modeling(PPGeo)的研究中,作者提出了一个自监督学习框架,在大规模网络驾驶数据上预训练,为感知决策模型提供先验知识,显著提升了感知决策模型的性能。

aaa27fef1e2ef9fc2ae61e56f82063a.png

PPGeo自监督学习框架

PPGeo分为两个阶段。在第一阶段,根据时序图像生成位姿和深度预测;在第二阶段,利用第一阶段训练的位姿和深度网络监督单图像输入的视觉编码器,完成视觉编码器的预训练过程。PPGeo对预训练的视觉编码器进行调优,可以适配于不同的下游任务。实验表明,基于PPGeo的预训练模型具有更好的驾驶能力,在无关物体干扰、特定信号指引、环境变化等困难环境下,均可以输出合理结果。

ACO论文地址:arxiv.org/pdf/2204.02393.pdf

PPGeo论文地址:openreview.net/forum?id=X5SUR7g2vVw

加强解码器表达能力

为加强解码器表达能力,上海人工智能实验室自动驾驶课题组提出的Trajectory-guided Control Prediction(TCP)对解码器部分进行了特殊设计,解决了以往感知决策一体化模型重感知、轻决策的问题,仅使用单一单目相机作为输入,获得了CARLA Leaderboard(截至2022.6.24)(leaderboard.carla.org/)榜单第一名,大大减少了各类碰撞、偏航等问题出现的概率。

2.gif

CARLA Leaderboard:为评估真实环境下自动算法性能而设立的榜单,吸引了来自得克萨斯大学奥斯汀分校、法雷奥等众多自动驾驶研究人员和从业者参与其中

1b75006a663506c468b4d78994ece19.png

TCP在CARLA AD Leaderboard上的排名(截至2022.6.24)

6a5203a166adb0fa69ee29f69d74d5a.png

TCP方法框图


TCP解决的主要问题是输出轨迹加PID控制的方法不能准确稳定地控制车辆,而直接以控制输出的方法又缺乏对未来时刻的考虑。TCP采用取长补短的方法,通过多任务学习(Multi-tasks)对解码器进行特殊设计,包含了轨迹及控制两个分支,轨迹分支教控制分支“看向未来”,控制分支负责在PID不稳定的情况下接管车辆。

Demo:TCP在CARLA中的测试片段,TCP可以准确地输出对应的轨迹与控制信号。

针对相关研究成果,在NeurIPS 2022期间,上海人工智能实验室自动驾驶课题组吴鹏浩将于北京时间12月3日23:35在ML4AD workshop发表演讲。

论文地址:arxiv.org/abs/2206.08129 (NeurIPS 2022)

项目地址:github.com/OpenPerceptionX/TCP


以目标驱动的感知决策一体化设计

纯视觉方案具有信息丰富与低成本的优势,同时,以往端到端方案通常单纯使用控制信号进行监督。自动驾驶课题组提出,对纯视觉自动驾驶算法每个模块都加以设计并进行端到端训练,提出了ST-P3:End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning。

ce01ad88d0aaeae9aadf2e824f50252.png

ST-P3工作结构框图

ST-P3是一个基于视觉的可解释的端到端系统,该系统可以改善感知、预测和规划的特征学习。在多个时刻下的环视相机图像会依次经过感知、预测、规划模块,输出最终的规划路径。其中,感知和预测模块的特征输出,可以经过解码器得到不同类型的场景语义信息,增强可解释性。团队还通过每个模块中特殊的设计来增强时空特征的学习。在端到端一体化的训练方式下,三个模块的性能在nuScenes数据集上的感知、预测与开环规划效果均超越相应的方法达到SOTA,并且在CARLA上的测试也可以超越经典的基于多模态的Transfuser方法。

论文地址:arxiv.org/abs/2207.07601(ECCV 2022)

项目地址:github.com/OpenPerceptionX/ST-P3


落地方案Openpilot

eac90e00b642bfa4f4373452c87bd12.png

Openpilot

在工业界,同样对端到端自动驾驶有了相应方案。Openpilot是一套针对高速驾驶场景,面向L2辅助驾驶功能(ACC、LKA、DMS等)的开源项目,已实现将端到端模型应用于量产落地。Openpilot采用一个简单的多任务学习模型,以前后两帧前视摄像头作为输入,直接输出预测轨迹,预测轨迹和雷达信号结合送入MPC控制器得到最终的控制信号。

基于此,自动驾驶课题组复现了Openpilot的模型,以多任务学习的形式同时预测车道线、车辆状态等信息,相关资料发表在arxiv上。

网站链接:sites.google.com/view/openpilot-deepdive/home

论文链接:arxiv.org/abs/2206.08176

项目链接:github.com/OpenPerceptionX/Openpilot-Deepdive

端到端自动驾驶在迅速发展的同时,也仍然存在诸多挑战,自动驾驶课题组期待与学界交流分享前沿观点,不断发掘自动驾驶相关研究在现实世界中的应用潜力。


未经允许,禁止转载;以上图、表未作说明,均为原创。