科研动态

Dynamics

首页 >  科研动态 > 新闻  >  详情

再创开源多模态大模型性能标杆,书生·万象3.0升级发布,创新预训练方法

驱动科学研究的人工智能正逐渐改变科学研究的模式,在探索以通专融合实现通用人工智能(AGI)的进程中,通用基座大模型,尤其是具备跨模态理解能力的多模态大模型至关重要——多模态大模型的创新突破,将大幅提升模型同时处理文本、图像、视频等数据的能力,从而为科研创新提供基础性支撑。

2025年4月16日,上海人工智能实验室(上海AI实验室)升级并开源了通用多模态大模型书生·万象3.0(InternVL3)。通过采用创新的多模态预训练和后训练方法,InternVL3 多模态基础能力全面提升,在专家级基准测试、多模态性能全面测试中,10亿~780亿参数的全量级版本在开源模型中性能均位列第一,同时大幅提升了图形用户界面(GUI)智能体、建筑场景图纸理解、空间感知推理以及通识学科推理等方面的能力。

• 在专家级多学科领域知识推理基准测试MMMU中再次突破开源模型极限,取得72.2分;

• 基于司南OpenCompass开源评测框架,研究团队对InternVL3进行了全面系统的评估,包括多学科推理、文档理解、多图像 / 视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力以及以语言为中心的基准测试。评测结果显示,InternVL3在开源多模态大模型中性能表现最优,创造了开源多模态大模型的性能新标杆,性能接近闭源模型Gemini-2.5-Pro;

• 创新提出原生多模态预训练方法,将语言和多模态学习整合于同一个预训练阶段,提升及拓展多模态能力的同时,进一步提升纯语言能力;

• 提出混合偏好优化算法以及多模态测试阶段增强,通过负监督修正模型响应分布,大幅提升模型推理能力。

640 (1).png

技术报告链接:https://huggingface.co/papers/2504.10479

代码开源/模型使用方法:https://github.com/OpenGVLab/InternVL

模型地址:https://huggingface.co/OpenGVLab/InternVL3-78B

公测版本:https://chat.intern-ai.org.cn/


创新的多模态预训练方法

上海AI实验室研究团队提出了一种创新的原生多模态预训练方法,与传统的先优化大语言模型再添加视觉能力的方法不同,这种方法在模型的预训练阶段将文本数据与多模态数据无缝结合,让模型能够同时学习语言和视觉,从而能够同时处理文本和多模态输入。由于在预训练阶段对文本和多模态数据给予同等的重视,模型能够自然地获得多模态能力,而无需依赖从独立训练的大语言模型中进行大量的特征对齐。此外,该训练策略可使模型的文本能力和多模态能力同时得到提升。由于预训练数据的内在复杂性,确定合适的采样策略是一项具有挑战性的任务。为了解决这一问题,研究团队首先分别独立训练多模态数据集和纯语言数据集,并在各自的基准测试上评估它们的性能。这一步骤的目的是确定每个模态内子类别中的最佳采样比例。在达到局部最优后,研发团队再将两种模态的数据结合起来,并在相同的总训练预算下确定它们的相对采样比例。实证结果表明,纯语言数据与多模态数据的比例为 1:3 时,在语言和多模态基准测试中都能产生最佳性能。

高效的多模态后训练策略

在完成原生多模态预训练之后,研究团队采用了监督微调(Supervised Fine-Tuning,SFT)、混合偏好优化(Mixed Preference Optimization,MPO)、测试时间缩放(Test-Time Scaling,TTS)等后训练方案进一步提升了模型的多模态对话和推理能力。

监督微调

在监督微调阶段, InternVL3沿袭了InternVL2.5 中提出的随机图像压缩、平方损失重加权和多模态数据拼接等技术。与 InternVL2.5 相比,InternVL3 在监督微调阶段使用了更高质量且更多样化的训练数据,研究团队进一步扩充了工具使用、三维场景理解、图形用户界面操作、长上下文任务、视频理解、科学图表、创意写作以及多模态推理等方面的训练样本。

混合偏好优化

在预训练和监督微调阶段,模型被训练基于先前的正确单词来预测下一个单词。然而在推理过程中,模型是基于其自身之前的输出来预测下一个单词。训练与推理阶段中单词的真实分布和模型预测分布之间存在差异,这将引入分布偏移,进而削弱模型的长序列输出以及思维链(CoT)推理能力。为了缓解这个问题,研究团队采用了混合偏好优化(MPO)方法,通过引入来自正样本和负样本的额外监督,帮助模型修剪自身分布,以使模型的预测分布和真实分布进一步对齐,从而减少分布偏移、提高模型推理性能。

多模态测试时增强(Test-Time Scaling)

测试时增强已被证明是增强 LLMs 和 MLLM 推理能力的有效方法。在 InternVL3 中,研究团队采用 Best-of-N 评估策略,并使用 VisualPRM-8B 作为评估模型,以选择最佳的响应进行推理和数学评估。


特色多模态能力

同时,除了可以处理通用的多模态任务之外,InternVL3 还拓展了多方面的多模态能力,如,图形用户界面(GUI)智能体、建筑场景图纸理解、空间感知推理、通识学科推理等。

GUI智能体

在GUI定位基准测试中,与最先进的通用多模态大模型和特定于 GUI的大模型进行了对比,InternVL3取得了极具竞争力的性能。可作为GUI智能体,遵循指令去操作电脑或者手机上的专业软件。

 

640 (26).png


Grouding坐标图上展示如下:

 

640 (14).jpg


建筑场景图纸理解

在建筑场景图纸理解的任务中,InternVL3可根据指令识别建筑图纸中的门窗、楼梯等构件,并定位构件的位置,后续可进一步扩展至对建筑领域图纸审查、统计核验等任务。

 

640 (27).png


Grouding坐标图上展示如下:

 

640 (28).png


空间感知推理

在空间感知与推理方面,InternVL3在现有的测试集上取得了最优表现,表明其在仅依赖视觉输入的条件下,具备较强的空间推理与理解能力。这一能力对于后续在机器人、自动驾驶等任务中的应用具有重要意义。

给模型看一个视频并提问:

These are frames of a video.

You are a robot beginning at the doorframe and facing the tv. You want to navigate to the sofa. You will perform the following actions (Note: for each [please fill in], choose either 'turn back,' 'turn left,' or 'turn right.'): 1. Go forward until the tv 2. [please fill in] 3. Go forward until the sofa. You have reached the final destination.

A. Turn Left

B. Turn Back

C. Turn Right

Answer with the option's letter from the given choices directly.

模型很好地理解了空间方位,并做出了正确的选择:C!