大型多模态模型的兴起为实现人类级场景理解的集成感知系统提供了路径。为实现这一目标,需要健壮而全面的模型评估基准及策略。然而,当前多模态模型的单一评估基准存在一定局限:图像基准排除了时间方面因素;视觉问答侧重于图像级的语义理解;物体跟踪任务通常捕捉个体物体的较低级外观(如颜色或纹理),而缺乏对重要方面的覆盖(如记忆技能或物理理解)。
颁奖现场
感知测试(Perception Test)是由Google DeepMind创建的诊断性基准,通过全面探索多模态模型在视频、音频和文本模态上的能力,涵盖四个技能领域(记忆、抽象、物理、语义),四种推理类型(描述性、解释性、预测性、反事实性)和六个计算任务
(多项选择视频问答、基于视频的问答、物体跟踪、点追踪、动作定位、声音定位)。本次获奖的两项技术方案,均基于上海AI实验室自研的高效训练视频基模型Unmasked Teacher及视频自监督预训练框架VideoMAE,验证了书生视频大模型(InternVideo)优异的视频理解能力。
在时序声音定位任务中,向模型中输入视频,模型需要根据预定义的声音类别集对视频中发生的声音事件进行定位和分类。
时序声音定位任务示例,视频上方为声音标签,包含了声音类别和起始时间点,每个视频可能存在多个标签
针对此任务,OpenGVLab团队采用了预训练音频、视频网络提取特征并结合时序定位网络生成事件类别与起始时间点的策略。
在音频、视频特征的提取中,研究团队分别采用了AudioSet-2M数据集上预训练的BEATs模型及Something Something-V2数据集上预训练的UMT-Large模型,并在时序事件定位任务赛道的官方训练集上对UMT-Large模型进行了训练。
两个模态的特征按照音频特征的维度,通过特征插值的方式进行时序对齐。在时序定位网络方面,研究团队选择ActionFormer模型,将音频和视频的特征沿channel维度链接起来后,送入到ActionFormer网络中生成事件类别和起始时间点。整体的流程如下图所示:
在时序事件定位任务中,向模型中输入视频,模型将根据预定义的事件类别集对视频中发生的视觉动作事件进行定位和分类。
时序事件定位任务示例,视频下方为视觉动作标签,包含了视觉动作的类别和起始时间点,每个视频可能存在多个标签
在此任务中,研究团队采取了与时序声音定位任务相似的策略,研究团队采用了预训练音频/视频网络提取特征+时序定位网络生成事件类别和起始时间点的策略,但所使用的UMT-Large模型未在本赛道的训练集上进行训练。对于音频特征提取的提取,则采用了与时序声音定位任务一致的BEATs模型。
VideoMAE模型被用于提取动作特征,该模型在Ego4D Verb数据集上预训练而成,用于处理该赛道中经常出现的第一视角场景。而后VideoMAE和UMT-Large模型的特征被联结起来,成为最终的视觉特征,最终通过特征插值的方式进行时序对齐。
针对时序定位网络,研究团队选择了ActionFormer模型,将视频和音频的特征沿Channel维度链接起来后,送入到ActionFormer网络中生成事件类别和起始时间点。