科研动态

Dynamics

首页 >  科研动态 > 新闻  >  详情

700万条视频,准确文本对应,大规模视频-文本开源数据集InternVid发布

近日,上海人工智能实验室(上海AI实验室)联合南京大学、中国科学院等机构联合发布高质量大规模视频-文本数据集InternVid,旨在应对日益扩大的视频-语言建模规模需求,推动大模型视频理解和生成能力进一步提升。

 

作为当前全球最大的视频-文本公开数据集之一,InternVid包含700万条配有详细文本描述的视频,涵盖16种场景和约6000个动作描述,总时长接近76万小时,并具备高视频-文本对应性,数据集中的视频与文本描述高度匹配,为视频-文本语义匹配、视频-文本检索、视频-文本生成等多模态学习任务训练提供“视频词典”。

 

InternVid受到学术界广泛关注,已应用于多模态世界模型LWM,并被Google、Stable AI的视频生成工作使用或参考,相关论文在2024年国际表征学习大会(ICLR 2024)获Spotlight。

 

论文链接:https://arxiv.org/abs/2307.06942

数据集链接:https://github.com/OpenGVLab/InternVideo/tree/main/Data/InternVid

 

| 大规模高质量数据集,更接近现实多元世界

 

InternVid包含超过 700 万个互联网公开视频,总时长近76万小时,共计230M个视频片段,涵盖16种场景和约6000个动作描述。视频内容覆盖日常生活、体育运动、娱乐、教育等多个领域,可应对多方面研究需求。

 

为了确保数据集多样性,以更接近多元的现实世界,上海AI实验室联合团队选择了来自不同国家、多语种的视频,而非依赖于某个主导语言环境。同时,基于动作和活动查询词收集视频,在InternVid中保留了重要的时序信息,有助于通过呈现不同文化背景下的现实场景,提升模型对真实世界的理解能力。

 

InternVid中85%的视频具有720P高分辨率,联合团队还为InternVid设置了视频文本匹配度(CLIP-SIM)和视频美学分数描述,为用户提供可借鉴参考,以便更高效地使用InternVid进行多模态训练。

 638537118330180000.jpg

InternVid视频语言、时长、类别一览

 

| 视频均附准确文字描述,多模态学习“有据可依”

 

学习可迁移的视频-文本表示,对于大模型视频理解和生成能力尤为重要,因而在下游的自动驾驶、智能监控、人机交互、视觉搜索等大模型实际应用中扮演关键角色。随着多模态大模型参数的不断扩大,高质量视频-语言数据集的构建也面临新的需求。

 

为了使视频及其描述文本具有更准确的对应性,联合团队在搜集互联网公开视频描述时,采用了创新的多尺度视频描述生成方法,InternVid中的所有视频均附带高度相关的文本描述。使视频-文本语义匹配、视频-文本生成等多模态学习“有据可依”。

 638537118837340000.jpg

为了生成可扩展、丰富和多样化的视频描述,联合团队采用了多尺度方法,包含两种不同的描述策略。在较细的尺度上,专注于视频片段中常见的对象、动作和场景描述来简化视频描述过程;在较粗的尺度上,仅对视频的中心帧进行描述。这些描述被合成一个准确的综合视频描述。

InternVid中,视频均配有准确文本描述,涉及不同语种方言、场景动作、文化背景。

 

研究人员利用InternVid中的子集InternVid-Aes进行了Diffusion视频生成模型训练实验。实验结果显示,基于InternVid,文生视频模型的视觉生成效果和定量评测结果均得到显著提升,基座模型能力获得有效增强。

 638537119205430000.jpg

基于Diffusion模型在WebVid10M和InternVid-Aes不同数据集训练而来的视频生成结果,可见,通过InternVid-Aes训练后生成的视频视觉效果提升明显。生成提示词:一个没有头发的男人穿着黑色T恤正在弹吉他。

 638537119416950000.jpg

为了定量评估InternVid对模型能力的提升效果,研究人员进行了零样本文本到视频的实验,随机从UCF-101数据集中抽取了2020个视频,从MSR-VTT数据集中抽取了2990个视频进行测试,InternVid在IS、FID、FVD 、CLIPSIM各项指标中综合领先。


comm@pjlab.org.cn

上海市徐汇区云锦路701号西岸国际人工智能中心37-38层

沪ICP备2021009351号-1