科研动态

Dynamics

首页 >  科研动态 > 新闻  >  详情

VBench:视频生成模型评测体系 | CVPR 2024

由上海人工智能实验室(上海AI实验室)、南洋理工大学S-Lab、香港中文大学、南京大学联合提出的视频生成模型评测体系VBench相关研究入选本届CVPR Highlight论文名单。

 

联合团队在题为《VBench: Comprehensive Benchmark Suite for Video Generative Models》的论文中提出了包含16个分层和解耦的评测维度,能够全面、细致地评估视频生成效果,为模型能力提升提供有价值的性能参考。同时,带来评估效率提升,更顺应人类感官体验。

 

论文链接:https://arxiv.org/abs/2311.17982

开源链接:https://github.com/Vchitect/VBench

模型评测实时排行榜详见:https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

638545734449370000.jpg

VBench创新亮点速览

  • 包含16个分层和解耦的评测维度

  • 评测方案与人类的观感与评价对齐

  • 代码及提示词体系全面开源

  • 简单部署,一键安装

 638545734930740000.jpg

VBench整体架构

| 评测结果更符合人类感知

针对每个细分维度,联合团队测试了VBench评测结果与人工评测结果之间的相关度,发现VBench评测方法与人类感知具备较高的一致性。下图中,横轴代表不同维度的人工评测结果,纵轴则展示了VBench方法自动评测的结果,可见VBench在各个维度均与人类感知高度对齐。

638545735252370000.jpg


| 基于VBench的视频生成模型评测结果

 

部分开源视频生成模型对比

联合团队选择了6个不同的开源模型在VBench进行测试,结果显示,VideoCrafter-1.0和Show-1在测试中显示出相对优势。

 638545736928600000.jpg

部分已开源AI视频生成模型在VBench上的表现。在雷达图中,为了更清晰地可视化比较,每个维度的评测结果归一化到了0.3与0.8之间。

 638545737263390000.jpg

参与测试模型详细评分

 

部分闭源商业模型对比

研究人员同时基于VBench,对比了Gen-2和Pika两个商业模型与开源模型VideoCrafter-1.0和Show-1的性能差异。结果显示,Gen-2和Pika在视频质量(Video Quality)上有明显优势,包括时序一致性(Temporal Consistency)和单帧质量(Aesthetic Quality及Imaging Quality)相关维度。在用户输入的Prompt语义一致性方面(如Human Action及Appearance Style),部分开源模型会更胜一筹。

 638545737884400000.jpg

Gen-2和Pika在VBench上的表现。在雷达图中,为了更清晰地可视化比较,引入VideoCrafter-1.0和Show-1作为参考,同时将每个维度的评测结果归一化到了0.3与0.8之间。

 638545738529720000.jpg

Gen-2和Pika在VBench上的详细评分

 

部分视频生成模型在8大场景类别上的表现对比

 638545738931880000.jpg

联合团队基于VBench评估了LaVie、ModelScope、VideoCrafter、CogVideo在动物、建筑、食物、生活方式、风景、人类、植物、交通工具8大主要场景中的生成表现。不同模型呈现出了显著的能力侧重点差异。

 

视频生成模型与图片生成模型对比

 638545739284470000.jpg

4个开源视频生成模型与部分图片生成模型性能差异,其中SD1.4、SD2.1 、SDXL 为图片生成模型。

 

| 全面开源,简单部署,一键安装

 

目前,VBench已全面开源,且支持一键安装。

详情可访问:https://github.com/Vchitect/VBench

 638545739768070000.jpg

同时,包含不同能力评测基准和不同场景内容评测基准的提示词体系(Prompt List)同步开源。

详情可访问:https://github.com/Vchitect/VBench/tree/master/prompts

 

| 为视频生成模型能力提升带来有价值参考

 

不仅可对现有模型进行评测,VBench还可以发现不同模型中可能存在的各种问题,为未来视频生成模型发展提供有价值的指标参考。基于VBench的评测结果,联合团队在论文中为视频生成模型能力提升提出了系列策略:

 

1、“时序连贯性”及“视频的动态程度”应同时提升

时序连贯性(Subject Consistency、Background Consistency、Motion Smoothness)与视频中运动的幅度(Dynamic Degree)之间有一定的权衡关系。部分模型在背景一致性和动作流畅度方面表现较好,但在动态程度方面得分较低,而另一部分模型则相反。

 

2、分场景内容进行评测,发掘不同模型潜力

部分模型在不同场景上表现出的性能存在较大差异,需深度挖掘模型在某个能力维度的上限,进而针对性地提升短板。

 

3、复杂运动类别中的时空表现均不佳

在空间上复杂度高的类别,模型美学质量维度得分往往低。这表明当前模型在处理时序建模方面仍然存在一定的不足,时序上的建模局限可能会导致空间上的模糊与扭曲,从而导致视频在时间和空间上的质量都不理想。

 

4、对于难生成的类别,提升数据量收益不大

研究人员对视频数据集 WebVid-10M 进行了统计,发现其中约有26%的数据与 “Human”有关,占比最高。然而,在评估结果中,“Human”类别却是模型表现最差的场景。表面在复杂的生成类别中,仅仅增加数据量可能不会对性能带来显著的改善。或许可通过引入相关的先验知识或控制,来指导模型学习。

 

5、提升数据质量应优先于数据量

“Food”类别在WebVid-10M中仅占据11%,但在评测中几乎总是拥有最高的美学质量分数。这意味着,在百万量级数据的基础上,筛选或提升数据质量,比增加数据量更会对模型能力带来帮助。

 

6、待提升的能力:准确生成生成多物体,表现物体间的关系

多数视频生成模型在多对象生成(Multiple Objects)和空间关系(Spatial Relationship)方面不及图片生成模型,提升组合能力在未来研究中具备重要性。