InternVL 1.5是一款开源的多模态大语言模型 (MLLM),旨在弥合开源模型和商用闭源模型在多模态理解方面的能力差距。在包含开源和闭源模型的对比测试中,InternVL 1.5在OCR、多模态、数学和多轮对话等18个基准的测试集取得了8个最优结果。
在四个特定基准测试中,InternVL 1.5超越了Grok-1.5V、GPT-4V、Claude-3 Opus和Gemini Pro 1.5等当前领先的闭源模型,在OCR相关数据集中表现尤为突出。
以下“火箭图”表现了InternVL 1.5的主要能力提升点,包括:
强视觉编码器:为大规模视觉基础模型InternViT-6B探索了一种持续学习策略,提高了视觉理解能力,并使其可以在不同的LLM中迁移和重用。
动态高分辨率:最高支持4K分辨率输入,能够根据输入图像的长宽比和分辨率,将图像划分为1到40个448×448像素的图块。
高质量的双语数据集:收集了高质量的双语数据集,涵盖常见场景、文档图像,并用英文和中文问答对进行注释,显着提高了OCR和中文相关任务的性能。
InternVL 1.5的总体结构采用当前普遍使用的多模态大模型ViT-MLP-LLM架构,通过MLP映射器将预训练好的InternViT-6B与InternLM2-20B相结合。同时引入一个简单的Pixel Shuffle技巧,将视觉标记数量减少到四分之一。
动态高分辨率方面,联合团队则从预定义的比例中动态匹配最佳宽高比,将图像划分为448×448像素大小的方块,并为全局上下文创建缩略图。该方法最大限度地减少了纵横比失真,并可在训练期间适应不同的分辨率。
InternVL 1.5动态分辨率描述
训练过程中,视觉标记的数量范围为256至3328。在测试过程,图块数量最多可以增加到40个,从而产生10496个视觉标记,实现最高4K分辨率的输入。
联合团队同时提出了模型在预训练和微调阶段使用的各类任务及对应的公开数据集。为了构建大规模OCR数据集,研究人员利用PaddleOCR对 WuKong数据集的图像执行中文OCR,对LAION-COCO数据集的图像执行英文OCR。
InternVL 1.5预训练阶段使用的数据集
InternVL 1.5微调阶段使用的数据集
评测结果显示,InternVL 1.5在多个基准测试中都表现出领先的性能。
InternVL 1.5在16个多模态基准上与SoTA模型的比较结果
相较于TextMonkey、DocOwl-1.5和LLaVA-NeXT等其他开源模型,InternVL 1.5显著缩小了与商用闭源模型的差距。
InternVL 1.5在ConvBench和MMT-Bench上与SoTA模型的比较结果
针对InternVL 1.5在不同分辨率下的性能分析,联合团队认为,尽管在训练期间仅使用1到12个图块,仍可在测试期间将零样本任务扩展到40个图块(即4K分辨率)。但是并非所有任务都需要高分辨率,下图可见,与 OCR相关的任务性能(DocVQA、InfoVQA、TextVQA和OCRBench等)与分辨率的提高呈正相关,而AI2D、MMMU、MMBench和HallusionBench等任务表现在更高分辨率下表现出轻微下降。
不同图像分辨率下InternVL 1.5性能的比较。X轴代表图块数量,Y轴代表基准性能。
总体而言,InternVL 1.5对动态分辨率表现出较强的鲁棒性。可根据每项任务的具体要求调整分辨率,确保在高分辨率有利的情况下实现最佳性能,在不利于高分辨率的情况下节省资源。
为了对比InternVL 1.5与GPT-4V的性能差异,联合团队通过General QA、OCR-related QA、科学理解、中国传统文化理解、目标定位、多图像对话等多项任务进行测试,并观察其表现差异。
下图中的蓝色字体表示正确答案,红色字体表示错误答案。为了方便读者阅读,所有答案均进行了中文翻译。
General QA示例
OCR-related QA示例
科学理解示例
中国传统文化理解示例
目标定位示例
多图像对话示例