为应对 “语言+自动驾驶”具体研究方向数据短缺的现状,联合团队构建了DriveLM,以覆盖自动驾驶系统中的感知(Perception)、预测(Prediction)、规划(Planning)等模块。DriveLM包含全栈式的语言标注数据,并提供场景级别的全局驾驶目标描述,以及对应的帧级别的驾驶目标问询。
该数据集基于nuScenes自动驾驶数据集和CARLA仿真模拟器构建,以场景级别的描述、关键帧级别的问答对(Description+Q&A)为组织形式,以问答对之间逻辑依赖关系构建的图结构作为核心。整个数据集分为训练集和验证集两部分,分别包含697个、150个场景。
经由人工进行复杂标注和严格的质量检查,DriveLM包含了高质量标准、信息量丰富、逻辑关联充分的驾驶相关文本数据,将助力自动驾驶系统在复杂多变的交通环境中使用语言模态应对复杂任务。
DriveLM涵盖自动驾驶全栈任务的图结构示意
在全栈式的语言标注数据中,感知模块主要关注物体相对车辆的位置或运动状态;预测模块用于预判车辆或行人的未来可能行为和状态;规划模块则负责部署车辆可采取的行动。
DriveLM标注的数据中包含了基于假设情况推理的内容,有助于训练自动驾驶模型对尚未发生的复杂事件进行预判。
DriveLM涵盖自动驾驶全栈任务的图结构示意
此外,DriveLM提供了场景级别的全局驾驶目标描述和对应的帧级别的驾驶目标描述,并引入了驾驶目标分解任务。通过将复杂的宏观驾驶任务分解为更具体、更简单的子任务,可使自动驾驶系统学会应对更复杂多变的交通环境。
与此同时,上海AI实验室联合团队还提出了基线模型DriveLM-Agent,用于执行端到端自动驾驶任务。
DriveLM-Agent基于网络规模数据视觉语言模型(VLMs)构建而成,并在多模态模型BLIP-2上进行了微调,采取了以前序节点问答作为输入问题上文的方式,来对提出的图结构进行编码(如下图所示),可应用于任何通用VLMs。此外,DriveLM-Agent结合了图提示方案,有效地将VLMs应用于端到端自动驾驶任务。DriveLM-Agent模型代码将逐步开源。