科研动态

Dynamics

首页 >  科研动态 > 新闻  >  详情

上海AI实验室开源首个含图结构的“语言+自动驾驶”全栈数据集DriveLM

CVPR 2024自动驾驶国际挑战赛(Autonomous Grand Challenge)已于日前启动,在本届挑战赛“大语言模型在自动驾驶中的应用”赛道中,参赛者需使用DriveLM数据集解决自动驾驶中的规控推理和泛化问题。

 

DriveLM由上海人工智能实验室(上海AI实验室)联合德国图宾根大学、图宾根人工智能中心推出,是首个含图结构的“语言+自动驾驶”全栈开源数据集DriveLM。

 

借助多模态大语言模型和海量自然语言数据集,DriveLM将助力构筑复杂场景下安全、精准、可解释的自动驾驶系统,推动提升自动驾驶推理能力上限。

 

DriveLM数据集开源链接:https://github.com/OpenDriveLab/DriveLM

DriveLM论文链接:https://arxiv.org/abs/2312.14150

赛事详情:https://opendrivelab.com/challenge2024


为应对 “语言+自动驾驶”具体研究方向数据短缺的现状,联合团队构建了DriveLM,以覆盖自动驾驶系统中的感知(Perception)、预测(Prediction)、规划(Planning)等模块DriveLM包含全栈式的语言标注数据,并提供场景级别的全局驾驶目标描述,以及对应的帧级别的驾驶目标问询。

 

该数据集基于nuScenes自动驾驶数据集和CARLA仿真模拟器构建,以场景级别的描述、关键帧级别的问答对(Description+Q&A)为组织形式,以问答对之间逻辑依赖关系构建的图结构作为核心。整个数据集分为训练集和验证集两部分,分别包含697个、150个场景。

 

经由人工进行复杂标注和严格的质量检查,DriveLM包含了高质量标准、信息量丰富、逻辑关联充分的驾驶相关文本数据,将助力自动驾驶系统在复杂多变的交通环境中使用语言模态应对复杂任务。

638428111803290000.jpg

  DriveLM涵盖自动驾驶全栈任务的图结构示意

在全栈式的语言标注数据中,感知模块主要关注物体相对车辆的位置或运动状态;预测模块用于预判车辆或行人的未来可能行为和状态;规划模块则负责部署车辆可采取的行动。

 

DriveLM标注的数据中包含了基于假设情况推理的内容,有助于训练自动驾驶模型对尚未发生的复杂事件进行预判。

638428112149980000.png

DriveLM涵盖自动驾驶全栈任务的图结构示意

此外,DriveLM提供了场景级别的全局驾驶目标描述和对应的帧级别的驾驶目标描述,并引入了驾驶目标分解任务。通过将复杂的宏观驾驶任务分解为更具体、更简单的子任务,可使自动驾驶系统学会应对更复杂多变的交通环境。

 

与此同时,上海AI实验室联合团队还提出了基线模型DriveLM-Agent,用于执行端到端自动驾驶任务。

 

DriveLM-Agent基于网络规模数据视觉语言模型(VLMs)构建而成,并在多模态模型BLIP-2上进行了微调,采取了以前序节点问答作为输入问题上文的方式,来对提出的图结构进行编码(如下图所示),可应用于任何通用VLMs。此外,DriveLM-Agent结合了图提示方案,有效地将VLMs应用于端到端自动驾驶任务。DriveLM-Agent模型代码将逐步开源。

638428112397300000.png



comm@pjlab.org.cn

上海市徐汇区云锦路701号西岸国际人工智能中心37-38层

沪ICP备2021009351号-1