700万条视频，准确文本对应，大规模视频-文本开源数据集InternVid发布

来源：上海人工智能实验室｜2024-06-07

近日，上海人工智能实验室（上海AI实验室）联合南京大学、中国科学院等机构联合发布高质量大规模视频-文本数据集InternVid，旨在应对日益扩大的视频-语言建模规模需求，推动大模型视频理解和生成能力进一步提升。

作为当前全球最大的视频-文本公开数据集之一，InternVid包含超700万条配有详细文本描述的视频，涵盖16种场景和约6000个动作描述，总时长接近76万小时，并具备高视频-文本对应性，数据集中的视频与文本描述高度匹配，为视频-文本语义匹配、视频-文本检索、视频-文本生成等多模态学习任务训练提供“视频词典”。

InternVid受到学术界广泛关注，已应用于多模态世界模型LWM，并被Google、Stable AI的视频生成工作使用或参考，相关论文在2024年国际表征学习大会（ICLR 2024）获Spotlight。

论文链接：https://arxiv.org/abs/2307.06942

数据集链接：https://github.com/OpenGVLab/InternVideo/tree/main/Data/InternVid

| 大规模高质量数据集，更接近现实多元世界

InternVid包含超过 700 万个互联网公开视频，总时长近76万小时，共计230M个视频片段，涵盖16种场景和约6000个动作描述。视频内容覆盖日常生活、体育运动、娱乐、教育等多个领域，可应对多方面研究需求。

为了确保数据集多样性，以更接近多元的现实世界，上海AI实验室联合团队选择了来自不同国家、多语种的视频，而非依赖于某个主导语言环境。同时，基于动作和活动查询词收集视频，在InternVid中保留了重要的时序信息，有助于通过呈现不同文化背景下的现实场景，提升模型对真实世界的理解能力。

InternVid中85%的视频具有720P高分辨率，联合团队还为InternVid设置了视频文本匹配度（CLIP-SIM）和视频美学分数描述，为用户提供可借鉴参考，以便更高效地使用InternVid进行多模态训练。

InternVid视频语言、时长、类别一览

| 视频均附准确文字描述，多模态学习“有据可依”

学习可迁移的视频-文本表示，对于大模型视频理解和生成能力尤为重要，因而在下游的自动驾驶、智能监控、人机交互、视觉搜索等大模型实际应用中扮演关键角色。随着多模态大模型参数的不断扩大，高质量视频-语言数据集的构建也面临新的需求。

为了使视频及其描述文本具有更准确的对应性，联合团队在搜集互联网公开视频描述时，采用了创新的多尺度视频描述生成方法，InternVid中的所有视频均附带高度相关的文本描述。使视频-文本语义匹配、视频-文本生成等多模态学习“有据可依”。

为了生成可扩展、丰富和多样化的视频描述，联合团队采用了多尺度方法，包含两种不同的描述策略。在较细的尺度上，专注于视频片段中常见的对象、动作和场景描述来简化视频描述过程；在较粗的尺度上，仅对视频的中心帧进行描述。这些描述被合成一个准确的综合视频描述。

在InternVid中，视频均配有准确文本描述，涉及不同语种方言、场景动作、文化背景。

研究人员利用InternVid中的子集InternVid-Aes进行了Diffusion视频生成模型训练实验。实验结果显示，基于InternVid，文生视频模型的视觉生成效果和定量评测结果均得到显著提升，基座模型能力获得有效增强。

基于Diffusion模型在WebVid10M和InternVid-Aes不同数据集训练而来的视频生成结果，可见，通过InternVid-Aes训练后生成的视频视觉效果提升明显。生成提示词：一个没有头发的男人穿着黑色T恤正在弹吉他。

为了定量评估InternVid对模型能力的提升效果，研究人员进行了零样本文本到视频的实验，随机从UCF-101数据集中抽取了2020个视频，从MSR-VTT数据集中抽取了2990个视频进行测试，InternVid在IS、FID、FVD 、CLIPSIM各项指标中综合领先。

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

人才招聘

招生信息

${ v.newstitle }

700万条视频，准确文本对应，大规模视频-文本开源数据集InternVid发布

来源：上海人工智能实验室｜2024-06-07

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

人才招聘

招生信息

${ v.newstitle }

700万条视频，准确文本对应，大规模视频-文本开源数据集InternVid发布

来源： 上海人工智能实验室｜2024-06-07

来源：上海人工智能实验室｜2024-06-07