InternVid视频语言、时长、类别一览
| 视频均附准确文字描述,多模态学习“有据可依”
学习可迁移的视频-文本表示,对于大模型视频理解和生成能力尤为重要,因而在下游的自动驾驶、智能监控、人机交互、视觉搜索等大模型实际应用中扮演关键角色。随着多模态大模型参数的不断扩大,高质量视频-语言数据集的构建也面临新的需求。
为了使视频及其描述文本具有更准确的对应性,联合团队在搜集互联网公开视频描述时,采用了创新的多尺度视频描述生成方法,InternVid中的所有视频均附带高度相关的文本描述。使视频-文本语义匹配、视频-文本生成等多模态学习“有据可依”。
为了生成可扩展、丰富和多样化的视频描述,联合团队采用了多尺度方法,包含两种不同的描述策略。在较细的尺度上,专注于视频片段中常见的对象、动作和场景描述来简化视频描述过程;在较粗的尺度上,仅对视频的中心帧进行描述。这些描述被合成一个准确的综合视频描述。
在InternVid中,视频均配有准确文本描述,涉及不同语种方言、场景动作、文化背景。
研究人员利用InternVid中的子集InternVid-Aes进行了Diffusion视频生成模型训练实验。实验结果显示,基于InternVid,文生视频模型的视觉生成效果和定量评测结果均得到显著提升,基座模型能力获得有效增强。
基于Diffusion模型在WebVid10M和InternVid-Aes不同数据集训练而来的视频生成结果,可见,通过InternVid-Aes训练后生成的视频视觉效果提升明显。生成提示词:一个没有头发的男人穿着黑色T恤正在弹吉他。
为了定量评估InternVid对模型能力的提升效果,研究人员进行了零样本文本到视频的实验,随机从UCF-101数据集中抽取了2020个视频,从MSR-VTT数据集中抽取了2990个视频进行测试,InternVid在IS、FID、FVD 、CLIPSIM各项指标中综合领先。