科研动态

Dynamics

首页 >  科研动态 > 新闻  >  详情

上海AI实验室发布新一代书生·视觉大模型,视觉核心任务开源领先

近日,上海人工智能实验室(上海AI实验室)联合清华大学、香港中文大学、商汤科技等机构开源新一代书生·视觉大模型(InternVL)。上海AI实验室在视觉大模型上持续发力,在2021年、2022年先后推出书生1.0InternImage,不仅及模型性能领先,还构建了视觉大模型的新架构。

 

新一代“书生·视觉基础”模型的视觉编码器参数量达60亿(InternVL-6B),首次提出了对比-生成融合的渐进式对齐技术,实现了在互联网级别数据上视觉大模型与语言大模型的精细对齐。

 

InternVL-6B不仅能处理复杂图片中细微的视觉信息并完成图生文任务,还可以识别和解读复杂页面中的信息,甚至解决其中的数理问题。

 

目前,InternVL全系列模型、代码均已开源,并提供Demo试用。

 

开源链接:https://github.com/OpenGVLab/InternVL

论文链接:https://arxiv.org/abs/2312.14238

试用Demo:https://internvl.opengvlab.com

 

• 在视觉感知、图文检索、图生文和多模态对话等30余个视觉基准测试上取得最优开源性能。

• 以不到1/3的参数量,在纯视觉任务和图生文任务上逼近或超过谷歌闭源ViT-22B。

• 在TinyLVLM、MMBench等多模态大模型评测上,性能比肩GPT4V、Gemini。

 

| 持续深耕视觉基础模型

 

视觉基础模型是当前计算机视觉的前沿核心问题,也是构建多模态大模型的重要基础。早在2021年上海AI实验室就发布了书生1.0,是国内首个广泛覆盖多种视觉任务的大模型,一个基模型即可全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务。在2022 年更新发布视觉大模型InternImage,构建了以动态稀疏卷积为核心操作的视觉大模型新架构,构建了非Transformer的大模型架构新途径,在12类视觉任务中实现性能领先。

638421611168690000.png

视觉基础模型从判别式预训练发展至今,InternVL引领了大模型时代基础视觉模型技术进展

 

| 视觉任务性能开源领先

 

InternVL-6B具备纯视觉感知、图文检索、图文生成、图文多模态生成和对话等关键能力。谷歌ViT-22B是目前被公认为最强大的专注视觉的基础模型(非开源)。InternVL开源模型以不到1/3的参数量,在纯视觉任务(如ImageNet、ADE20K等)和图生文任务(如NoCaps、MS COCO等)上逼近或超过谷歌ViT-22B。

638421611597800000.png

InternVL-6B(开源)对比 ViT-22B(闭源)

在视觉感知、图文检索、图文多模态生成和对话等30余个视觉基准测试上,InternVL-6B取得了开源社区的最优性能,超过了Meta、谷歌、微软、LAION等机构的同类开源模型。

638421612098210000.png

TinyLVLM 、MMBench等多模态大模型评测上,InternVL-6B取得了优秀的性能。其中,在MMBench-dev上,InternVL-6B达到76.6,虽然综合能力仍有待提高,但个别性能超越了GPT-4V(75.1)和Gemini(75.2)。

 

InternVL-6B具备强大的视觉表征和理解能力,尤其表现在面对信息复杂的图片时,模型仍可对细节进行精准捕捉,不仅可在图片或实际场景的复杂画面中捕捉细微的视觉信息,还可从复杂排版的图文页面中整合、解读信息,或辨别伪装外观的物体。

 

| 准确解读困难样本

 

日前,著名计算机科学家杨立昆(Yann LeCun)和谢赛宁(Saining Xie)等人在其最新论文《Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs》相关数据集中提出了若干困难样本,例如,图中货车外观凌乱,难以辨认车门。对此,InternVL作出了准确回答,GPT-4V误判为车门关闭。

638421613142770000.jpg

针对困难样本进行问答

| 理解自动驾驶场景复杂样本

 

例如下图,前车的反光材质造成了感知干扰,让模型难以辨别前方的车辆数目。这对于以往的自动驾驶感知技术而言是一个困难样本,而InternVL精准地辨别了前车数量,初步显示出通用泛化性的能力。

638421613543430000.jpg

自动驾驶场景的实际样本

| 复杂画面计数

 

下图是电视剧《繁花》的一张剧照,图中光影明暗交错,人物衣着丰富。向InternVL提问有几位男士戴了领带这样的细节,它也可以快速数出是3位。

638421618760040000.jpg

对《繁花》剧照进行细节问答

| 解决数理问题

638421614870840000.png

对于上图所示的生物学问题,向InternVL提问:如果细胞外的pH值降低,你认为转运到细胞内的氨基酸量会增加还是减少?InternVL回答:如果细胞外的pH值降低,氨基酸就会带更多的负电荷。这会导致它们被细胞膜内部带正电的Na+离子吸引,从而导致转运到细胞中的氨基酸量增加。

 

在下图中,向InternVL提问:分析两种汽车,哪种更符合空气动力学?InternVL也能够正确回答并给出理由。

638421615211430000.png

| 辨别伪装外观的物体

 

InternVL对细节的捕捉能力极强,可以准确地找出图像中的“隐藏”信息,让海底动物的伪装也无所遁形。 

638421619408700000.jpg

识别伪装物体

| 解读复杂排版图文信息

 

针对排版复杂的英文页面,InternVL可快速“看完”所有信息,帮助用户整合处理成中文介绍。

638421615978210000.jpg

AAAI官网的信息进行深度解析,识别出了网页里的重要信息

| 原创技术支撑能力提升

 

InternVL具备的强大能力来自一系列原创技术的支撑,其中首次提出的对比-生成融合的渐进式对齐技术,实现了在互联网级别数据上视觉大模型与语言大模型的精细对齐。

 

InternVL在训练过程中引入全新的渐进式对齐策略,从海量噪声数据上的对比学习,逐渐过渡到高质量数据上的生成式学习,实现了视觉编码器和语言模型的良好对齐,并对数据进行最大化利用,从而使得InternVL具备强大的多模态任务能力。

 638421616291070000.png

InternVL概览

通过灵活组合视觉编码器和语言中间件,InternVL可支持各种视觉或视觉-语言任务,如同“瑞士军刀”般集成多样化能力。

 

针对视觉感知任务,InternVL的视觉编码器InternViT-6B可直接作为骨干网络,作为传统ViT及深度残差网络(ResNet)的有效补充及替代。

 

在跨模态检索任务中,可通过InternViT-6B的视觉特征或QLLaMA的查询特征实现各类对比检索,并作为CLIP模型的有效补充及替代。得益于参数量的扩大,QLLaMA在应对生成任务中具有更强大的图像字幕能力,可同时对InternViT-6B的视觉表示进行重新组织,实现多模态内容生成。

 

在多模态对话方面,研究人员定制了书生·视觉的对话版InternVL-Chat,将InternVL作为视觉组件连接到大语言模型,构建出多模态对话模型。


comm@pjlab.org.cn

上海市徐汇区云锦路701号西岸国际人工智能中心37-38层

沪ICP备2021009351号-1