科研动态

Dynamics

首页 >  科研动态 > 新闻  >  详情

InternVL 1.5:弥合开源模型与商用闭源模型差距|CVPR 2024

由上海人工智能实验室(上海AI实验室)、南京大学、香港大学、香港中文大学、清华大学、中国科学技术大学及商汤科技联合提出的书生·多模态大模型1.5(InternVL 1.5),受到学术界及开发者社区广泛关注,相关成果论文入选本届CVPR Oral论文名单。

 

InternVL 1.5具备强大的视觉编码器和更深层次的场景理解能力;支持动态高分辨率,能够准确识别和理解图像中的各种细节以及文字信息。第三方评测结果显示,InternVL 1.5在多模态感知、通用问答、文档理解、信息图表理解以及数理理解等方面综合能力领先开源模型,比肩GPT-4V、Gemini Pro等闭源模型。

 

书生·多模态大模型(InternVL)于WAIC 2023期间发布,首次实现通过自然语言定义视觉任务,并具有多模态交互和跨模态生成能力。发布以来,书生·多模态历经多次迭代,首次提出了对比-生成融合的渐进式对齐等技术,并向全社会开源,在多项视觉基准测试上取得了最优开源性能。近期,InterVL 1.5将迎来重大更新,敬请持续关注。

 

论文链接:https://arxiv.org/pdf/2312.14238

开源链接:https://github.com/OpenGVLab/InternVL

试用链接:https://internvl.opengvlab.com


638543884579110000.jpg

InternVL 1.5是一款开源的多模态大语言模型 (MLLM),旨在弥合开源模型和商用闭源模型在多模态理解方面的能力差距。在包含开源和闭源模型的对比测试中,InternVL 1.5在OCR、多模态、数学和多轮对话等18个基准的测试集取得了8个最优结果。

 638543884940750000.jpg

在四个特定基准测试中,InternVL 1.5超越了Grok-1.5V、GPT-4V、Claude-3 Opus和Gemini Pro 1.5等当前领先的闭源模型,在OCR相关数据集中表现尤为突出。

 

以下“火箭图”表现了InternVL 1.5的主要能力提升点,包括:

 

强视觉编码器:为大规模视觉基础模型InternViT-6B探索了一种持续学习策略,提高了视觉理解能力,并使其可以在不同的LLM中迁移和重用。

动态高分辨率:最高支持4K分辨率输入,能够根据输入图像的长宽比和分辨率,将图像划分为1到40个448×448像素的图块。

高质量的双语数据集:收集了高质量的双语数据集,涵盖常见场景、文档图像,并用英文和中文问答对进行注释,显着提高了OCR和中文相关任务的性能。

 638543885211140000.jpg

638543885537370000.jpg

InternVL 1.5的总体结构采用当前普遍使用的多模态大模型ViT-MLP-LLM架构,通过MLP映射器将预训练好的InternViT-6B与InternLM2-20B相结合。同时引入一个简单的Pixel Shuffle技巧,将视觉标记数量减少到四分之一。

 

动态高分辨率方面,联合团队则从预定义的比例中动态匹配最佳宽高比,将图像划分为448×448像素大小的方块,并为全局上下文创建缩略图。该方法最大限度地减少了纵横比失真,并可在训练期间适应不同的分辨率。

 638543885778170000.jpg

InternVL 1.5动态分辨率描述

训练过程中,视觉标记的数量范围为256至3328。在测试过程,图块数量最多可以增加到40个,从而产生10496个视觉标记,实现最高4K分辨率的输入。

联合团队同时提出了模型在预训练和微调阶段使用的各类任务及对应的公开数据集。为了构建大规模OCR数据集,研究人员利用PaddleOCR对 WuKong数据集的图像执行中文OCR,对LAION-COCO数据集的图像执行英文OCR。

 638543886005140000.jpg

InternVL 1.5预训练阶段使用的数据集

638543886200800000.jpg

InternVL 1.5微调阶段使用的数据集

 

评测结果显示,InternVL 1.5在多个基准测试中都表现出领先的性能。

638543886462800000.jpg

InternVL 1.5在16个多模态基准上与SoTA模型的比较结果

 

相较于TextMonkey、DocOwl-1.5和LLaVA-NeXT等其他开源模型,InternVL 1.5显著缩小了与商用闭源模型的差距。

8.jpg

InternVL 1.5在ConvBench和MMT-Bench上与SoTA模型的比较结果

针对InternVL 1.5在不同分辨率下的性能分析,联合团队认为,尽管在训练期间仅使用1到12个图块,仍可在测试期间将零样本任务扩展到40个图块(即4K分辨率)。但是并非所有任务都需要高分辨率,下图可见,与 OCR相关的任务性能(DocVQA、InfoVQA、TextVQA和OCRBench等)与分辨率的提高呈正相关,而AI2D、MMMU、MMBench和HallusionBench等任务表现在更高分辨率下表现出轻微下降。

 638543886954310000.jpg

不同图像分辨率下InternVL 1.5性能的比较。X轴代表图块数量,Y轴代表基准性能。

 

总体而言,InternVL 1.5对动态分辨率表现出较强的鲁棒性。可根据每项任务的具体要求调整分辨率,确保在高分辨率有利的情况下实现最佳性能,在不利于高分辨率的情况下节省资源。

 

为了对比InternVL 1.5与GPT-4V的性能差异,联合团队通过General QA、OCR-related QA、科学理解、中国传统文化理解、目标定位、多图像对话等多项任务进行测试,并观察其表现差异。

 

下图中的蓝色字体表示正确答案,红色字体表示错误答案。为了方便读者阅读,所有答案均进行了中文翻译。

 638543887356010000.jpg

General QA示例

638543887663920000.jpg

OCR-related QA示例

638543887954740000.jpg

科学理解示例

638543888248010000.jpg

中国传统文化理解示例

638543888476670000.jpg

目标定位示例

638543888702580000.jpg

多图像对话示例