上海人工智能实验室联合商汤科技发布通用视觉开源平台OpenGVLab

来源：上海人工智能实验室｜ 2022-02-25

2月25日，上海人工智能实验室联合商汤科技发布通用视觉开源平台OpenGVLab，面向学术界和产业界开放其超高效预训练模型、超大规模公开数据集，以及业内首个针对通用视觉模型的评测基准。此举将为全球开发者提升各类下游视觉任务模型训练提供重要支持，推动AI技术的规模化应用落地，并促进人工智能基础研究及生态建设的快速发展。

继去年11月联合商汤科技、香港中文大学和上海交通大学发布通用视觉技术体系“书生”（INTERN），上海人工智能实验室在推动通用视觉智能技术的发展上持续发力。此次发布的通用视觉开源平台OpenGVLab不仅包含超高效预训练模型，同时包括千万级精标注、十万级标签量的公开数据集；同步公布的评测基准则将便于开发者对不同通用视觉模型的性能进行横向评估和持续调优。

目前OpenGVLab开源平台（opengvlab.shlab.org.cn）已正式上线，与上海人工智能实验室此前发布的OpenMMLab 、OpenDILab一道，共同构筑开源体系OpenXLab，助力通用人工智能的基础研究和生态构建。

首图1.png

“开源是一项意义非凡的工作，人工智能技术的迅速发展离不开全球研究开发人员十余年来的开源共建，共享共用。”上海人工智能实验室相关负责人表示，“希望通过发布OpenGVLab 开源平台，帮助业界更好地探索和应用通用视觉方法，促进体系化解决AI 发展中数据、效率、泛化、认知和安全等诸多瓶颈问题，为推动人工智能科研创新、产业发展作出贡献。”

当前，人工智能技术正快速发展，然而很多AI模型还局限于完成单一任务，如识别单一物体，或识别风格较为统一的照片。如果要对多种类型、风格进行识别，则需要具备足够的通用性和泛化能力。通用视觉技术体系“书生”（INTERN），很好地解决了这一问题。通用视觉开源平台OpenGVLab即是基于“书生”打造而成。依托“书生”在通用视觉技术上的支撑，OpenGVLab将大幅降低通用视觉模型的开发门槛，帮助开发者用更低的成本快速开发用于成百上千种视觉任务、视觉场景的算法模型，高效实现对长尾场景的覆盖，推动AI技术的规模化应用落地。

【率先开源：千万级精标注数据集、十万级标签体系】

OpenGVLab充分继承了通用视觉技术体系“书生”的技术优势，其开源的预训练模型具备极高性能。相较于此前公认的最强开源模型（OpenAI于2021年发布的CLIP），OpenGVLab的模型可全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务，在准确率和数据使用效率上均取得大幅提升。

插图2.png

OpenGVLab开源模型推理结果：上图为输入的图片，下图为识别出来的标签

插图3.png

针对艺术作品，OpenGVLab预训练模型展示出了强大的泛化能力，例如，针对这幅大熊猫画作，模型不但“看”出了这是一张“毛笔画”“水粉画”，而且由于图中的黑白色，模型还给出了“yin yang”（阴阳）的推测，这也体现了数据集标签的丰富性。

基于同样的下游场景数据，开源模型在分类、目标检测、语义分割及深度估计四大任务26个数据集上，平均错误率分别降低了40.2%、47.3%、34.8%和9.4%；同时，在分类、检测、分割和深度估计中，仅用10%的下游训练数据就超过了现有其他开源模型。使用此模型，研究人员可以大幅降低下游数据采集成本，用极低的数据量即可快速满足多场景、多任务的AI模型训练。

同时，OpenGVLab还提供多种不同参数量、不同计算量的预训练模型，以满足不同场景的应用需求。在ImageNet的微调结果和推理资源、速度等方面，模型库中列出的多个模型与之前的公开模型相比，均有不同程度的性能提升。

除了预训练模型，以百亿数据总量为基础，上海人工智能实验室构建了超大量级的精标注数据集。超大量级的精标注数据集不仅整合了现有开源数据集，还通过大规模数据图像标注任务，实现了对图像分类、目标检测以及图像分割等任务的覆盖，数据总量级近七千万。开源范围涵盖千万级精标注数据集和十万级标签体系。目前，图像分类任务数据集已率先开源，后续还将开源目标检测任务等更多数据集。

同时开放的还有总标签量级达到十万量级的超大标签体系，不仅几乎覆盖了所有现有开源数据集，还在此基础上扩充了大量细粒度标签，涵盖各类图像中的属性、状态等，极大丰富了图像任务的应用场景，显著降低下游数据的采集成本。此外，研究人员还可以通过自动化工具添加更多标签，对数据标签体系进行持续扩展和延伸，不断提高标签体系的细粒度，共同促进开源生态繁荣发展。

【业内首发：通用视觉评测基准推动产业化应用】

伴随OpenGVLab的发布，上海人工智能实验室还开放了业内首个针对通用视觉模型的评测基准。当前，行业中已有的评测基准主要针对单一任务、单一视觉维度而设，无法反映通用视觉模型的整体性能，难以用于横向比较。全新的通用视觉评测基准凭借在任务、数据等层面的创新设计，可提供权威的评测结果，推动统一标准上的公平和准确评测，加快通用视觉模型的产业化应用步伐。

在任务设计上，OpenGVLab提供的通用视觉评测基准创新地引入了多任务评测体系，可从分类、目标检测、语义分割、深度估计和行为识别等5类任务方向对模型的通用性能进行整体评估。不仅如此，该评测基准新加了仅用测试数据集10%数据量的评测设定，可以有效评估通用模型在真实数据分布下的小样本学习能力。在测试后，评测基准还可根据模型的评测结果给出相应的总分，方便使用者对不同的模型进行横向评测。

随着人工智能与产业融合的不断深入，行业对人工智能的需求逐渐从单一任务向复杂的多任务协同发展，亟需构建开源、开放的体系，以满足趋于碎片化和长尾化的海量应用需求。2021年7月，上海人工智能实验室发布开源平台体系OpenXLab，涵盖新一代OpenMMLab和决策智能平台OpenDILab。此次上海人工智能实验室与商汤科技联合发布通用视觉开源平台OpenGVLab，不仅将帮助开发者降低通用视觉模型的开发门槛，为推动通用视觉技术发展奠定基础，也进一步完善了OpenXLab开源体系，促进人工智能的基础研究和生态构建。

附：

1.OpenGVLab开源网址：opengvlab.shlab.org.cn

2.OpenMMLab开源网址：github.com/open-mmlab

3.OpenDILab开源网址：github.com/opendilab

4.技术报告《INTERN: A New Learning Paradigm Towards General Vision》

链接：arxiv.org/abs/2111.08687

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

人才招聘

招生信息

${ v.newstitle }

上海人工智能实验室联合商汤科技发布通用视觉开源平台OpenGVLab

来源：上海人工智能实验室｜ 2022-02-25