上海AI实验室发布新一代书生·视觉大模型，视觉核心任务开源领先

2024-01-29

近日，上海人工智能实验室（上海AI实验室）联合清华大学、香港中文大学、商汤科技等机构开源新一代书生·视觉大模型（InternVL）。上海AI实验室在视觉大模型上持续发力，在2021年、2022年先后推出书生1.0和InternImage，不仅及模型性能领先，还构建了视觉大模型的新架构。

新一代“书生·视觉基础”模型的视觉编码器参数量达60亿(InternVL-6B)，首次提出了对比-生成融合的渐进式对齐技术，实现了在互联网级别数据上视觉大模型与语言大模型的精细对齐。

InternVL-6B不仅能处理复杂图片中细微的视觉信息并完成图生文任务，还可以识别和解读复杂页面中的信息，甚至解决其中的数理问题。

目前，InternVL全系列模型、代码均已开源，并提供Demo试用。

开源链接：https://github.com/OpenGVLab/InternVL

论文链接：https://arxiv.org/abs/2312.14238

试用Demo：https://internvl.opengvlab.com

• 在视觉感知、图文检索、图生文和多模态对话等30余个视觉基准测试上取得最优开源性能。

• 以不到1/3的参数量，在纯视觉任务和图生文任务上逼近或超过谷歌闭源ViT-22B。

• 在TinyLVLM、MMBench等多模态大模型评测上，性能比肩GPT4V、Gemini。

| 持续深耕视觉基础模型

视觉基础模型是当前计算机视觉的前沿核心问题，也是构建多模态大模型的重要基础。早在2021年上海AI实验室就发布了书生1.0，是国内首个广泛覆盖多种视觉任务的大模型，一个基模型即可全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务。在2022 年更新发布视觉大模型InternImage，构建了以动态稀疏卷积为核心操作的视觉大模型新架构，构建了非Transformer的大模型架构新途径，在12类视觉任务中实现性能领先。

视觉基础模型从判别式预训练发展至今，InternVL引领了大模型时代基础视觉模型技术进展

| 视觉任务性能开源领先

InternVL-6B具备纯视觉感知、图文检索、图文生成、图文多模态生成和对话等关键能力。谷歌ViT-22B是目前被公认为最强大的专注视觉的基础模型（非开源）。InternVL开源模型以不到1/3的参数量，在纯视觉任务（如ImageNet、ADE20K等）和图生文任务（如NoCaps、MS COCO等）上逼近或超过谷歌ViT-22B。

InternVL-6B（开源）对比 ViT-22B（闭源）

在视觉感知、图文检索、图文多模态生成和对话等30余个视觉基准测试上，InternVL-6B取得了开源社区的最优性能，超过了Meta、谷歌、微软、LAION等机构的同类开源模型。

在TinyLVLM 、MMBench等多模态大模型评测上，InternVL-6B取得了优秀的性能。其中，在MMBench-dev上，InternVL-6B达到76.6，虽然综合能力仍有待提高，但个别性能超越了GPT-4V（75.1）和Gemini（75.2）。

InternVL-6B具备强大的视觉表征和理解能力，尤其表现在面对信息复杂的图片时，模型仍可对细节进行精准捕捉，不仅可在图片或实际场景的复杂画面中捕捉细微的视觉信息，还可从复杂排版的图文页面中整合、解读信息，或辨别伪装外观的物体。

| 准确解读困难样本

日前，著名计算机科学家杨立昆（Yann LeCun）和谢赛宁（Saining Xie）等人在其最新论文《Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs》相关数据集中提出了若干困难样本，例如，图中货车外观凌乱，难以辨认车门。对此，InternVL作出了准确回答，GPT-4V误判为车门关闭。