OpenMMLab“超大规模视觉通用模型”主题直播丨活动预告

首页科研动态新闻动态

来源：上海人工智能实验室｜ 2023-05-05

随着深度学习技术的演进，超大规模通用模型技术正快速发展，一个模型广泛应用于各种任务并具有某些通用智能特性的时代正在到来。

针对这一主题，上海人工智能实验室OpenMMLab浦视团队将举办“超大规模视觉通用模型”直播活动，邀请清华大学电子工程系副教授、博士生导师代季峰，分享其团队近期在该领域的研究进展。

活动时间

2023年5月4日（周四）

20:00-20:40（分享）

20:40-21:00（Q&A）

分享内容

视觉与语言跨模态智能及应用概述

视觉到语言的近期技术进展

语言到视觉的近期技术进展

视觉与语言跨模态智能应用

分享嘉宾

代季峰清华大学电子工程系副教授、博士生导师、OpenGVLab核心成员

2009年、2014年于清华大学自动化系分别获得工学学士和博士学位，博士导师为周杰教授。2014年至2019年在微软亚洲研究院视觉组工作，担任首席研究员、研究经理。2019年至2022年在商汤科技研究院担任执行研究总监。2022年7月全职加入清华大学电子工程系。

研究兴趣包括计算机视觉、深度学习等，相关领域发表国际期刊、会议文章50余篇，论文总引用2.6万余次，多篇论文成为物体识别领域里程碑式的成果，被编入世界一流大学视觉课程讲义，并入选深度学习权威框架PyTorch成为标准算子。

连续两年获得物体识别领域权威的COCO比赛冠军，之后历届冠军系统也使用了其提出的算法，获自动驾驶感知领域权威的Waymo 2022竞赛冠军。IJCV编委，NeurIPS 2023、ICCV 2023、CVPR 2023、CVPR 2021、ECCV 2020领域主席，ICCV 2019宣传主席。

主持人

李亦宁上海人工智能实验室青年研究员

OpenMMLab多个框架负责人，香港中文大学博士。主要研究方向为 Human-Centric机器视觉，包括属性、姿态识别，图像生成，度量学习等。

内容详情

通用感知模型由NLP发源，正往更多模态发展。多模态技术拓宽了AIGC技术的应用广度，将不同模态（图像、声音、语言等）融合在预训练模型中，使得预训练模型从单一的NLP、CV发展成音视频、语言文字、文本图像等多模态、跨模态模型。

通用感知模型在发展中也存在诸多挑战和困难，如：

1.网络参数量庞大（超十亿参数vs不到千万参数）：较之小网络，训练稳定性、收敛性、过拟合等问题面临更大挑战；

2.训练流程复杂（数十亿异质低质量图片、图文对vs千万同质精细标注图片）：多步训练以利用异质的多模态多任务数据，需应对流程复杂，灾难性遗忘，难以定位精度问题；

3.实验成本高（上千块GPU并行训练数周vs8块GPU训练数小时）：需要研究者有敏锐的分析能力和扎实的知识功底；

4.工程挑战多：海量数据的吞吐，大型GPU集群上的并行算法，超大参数量模型的内存管理等。

针对这些问题，代季峰教授将分享团队近期的四个研究成果，希望带给研究者们更多启发。

研究进展一：多模态多任务统一预训练

为了高效地在互联网尺度图像、图文对上训练超大规模视觉模型，团队提出了“最大化互信息统一预训练”，首次将现有各种预训练算法统一在一个框架中，实现多模态多任务统一预训练，一步完成多数据源的多模态多任务预训练，训练流程简洁高效，过程易于监控排除故障。解决了已有多模态多任务训练时流程复杂、鲁棒性低，难以分析定位训练，以及灾难性遗忘、犯错成本高等问题。

Code：https://github.com/OpenGVLab/M3I-Pretraining

研究进展二：超大规模图像主干网络

为了获得高质量的图像主干网络，使其能适用于各种异质的视觉任务，团队提出了InternImage大模型，以可变形卷积的方式取得了图像领域标杆任务的最优性能，打破了Vision Transformer对视觉大模型的垄断，超越包括微软、Meta、谷歌等机构的视觉大模型。在超大规模图像主干网络的研究中，需要考虑多方面的问题：

1.大模型设计的范式：考虑网络深度/宽度/分辨率/分组计算数量的scaling up策略、针对大网络收敛不稳定的特征及梯度调整策略、针对大模型收敛慢的初始化策略、针对大模型容易过拟合的训练策略等；

2.大规模加速训练框架：PyTorch DDP、FSDP、DeepSpeed ZeROs、混合精度计算、融合算子、kernel 级别加速、梯度累加、梯度 checkpointing、高效数据读取、数据切分、集群文件和计算系统排疑、训练异常自动监控推送及重启、profiler等；

3.多任务模型训练框架：支持多网络/多任务/多数据集/多模态的联合训练（设计实现高自由度模块化的Meta Dataloader & Sampler 和 Meta Training & inference Pipeline）、数十个任务-数据集对同时高效读取及预处理、多任务多数据集采样、基于代理任务的自动超参搜索、多任务梯度/Loss/Acc等统计量对比监控等。

团队提出的InternImage模型在数十个视觉任务数据集全面领先，并于2023年3月初开源。

Code：https://github.com/opengvlab/internimage

研究进展三：Uni-Perceiver通用视觉任务表征

在计算机视觉领域，不同任务的表征差异巨大。为构建视觉任务通用的解码器网络，实现任务级别的泛化的目标，团队提出了Uni-Perceiver系列，该方法是通用视觉任务表征模型研究的开创者，首次将数十种视觉任务统一在一个表征框架下。其中Uni-Perceiver v2已在在物体检测、实例分割等视觉核心问题上取得和专有模型相当的性能。

Code：https://github.com/fundamentalvision/Uni-Perceiver

研究进展四：BEV 环视自动驾驶感知

当前，工业界对相机3D感知有不同的探索路径，大体上可以分为Image-view和BEV方法两种。Image-view方案使用不同网络完成感知子任务，最后通过以规则为主的融合方法对不同网络的感知结果进行融合。区别于Image view方案，BEV方案通常采用Transformer将Image feature转换至BEV视角进行相关感知任务。针对现阶段基于视觉的3D目标检测方法并没有充分利用时序信息的问题，BEVFormer提出了基于可变形注意力机制（Deformable Attention）实现的一种融合多视角相机（multi-camera）和时序特征的端到端框架，适用于多种自动驾驶感知任务，检测算法具有鲁棒性。BEVFormer入选了“Top-10 most influential papers of ECCV 2022”，也在Waymo纯视觉3D检测挑战赛中斩获第一。

Code：https://github.com/fundamentalvision/BEVFormer

相关资料

Paper：

Su et. al., Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information. CVPR 2023.

Wang et. al., InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions. CVPR 2023.

Zhu et. al., Uni-perceiver: Pre-training unified architecture for generic perception for zero-shot and few-shot tasks. CVPR 2022.

Zhu et. al., Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional MoEs. NeurIPS 2022.

Li et. al., Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks. CVPR 2023.

Li et. al., BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers. ECCV 2022.

Yang et. al., BEVFormer v2: Adapting Modern Image Backbones to Bird's-Eye-View Recognition via Perspective Supervision. CVPR 2023.

活动组织方

指导单位：中国计算机学会高性能计算专业委员会、北京市科学技术协会

主办单位：OpenMMLab、北京超级云计算中心

协办单位：北京图象图形学学会、OpenGVLab、TechBeat人工智能社区

OpenMMLab浦视

OpenMMLab开源社区具备深度学习时代最完整的计算机视觉开源算法体系，是产学研用四位一体的开放开源算法平台。

OpenMMLab专注于视觉深度学习领域，涵盖30＋计算机视觉方向，支持300+算法，提供2300+预训练模型。所有的工具箱都基于统一架构，提供代码工程组织架构优秀、拥有大量高质量算法内容的代码库，与提供模型训练能力的PyTorch等深度学习框架协同互补。

OpenMMLab可以帮助使用者降低算法复现难度，方便复现算法基准并与之比较。与此同时，还可以帮助使用者解决算法落地过程产生的多样化版本问题，提升人工智能算法的应用和部署效率。

北京超级云计算中心

北京超级云计算中心（简称“北京超算”），成立于2011年，是由北京市人民政府主导、院市共建的“北京超级云计算和国家重要信息化基础平台”，现坐落于北京市怀柔综合性国家科学中心--怀柔科学城。自2019年起，北京超算在北京、宁夏、内蒙古等地布局了三个主算力枢纽，以构建跨域资源协同调度体系，优化算力之间的统筹联动，提高科研生产效率，降低企业研发成本，为国家“东数西算”工程的实施做出了有力的响应。

2020年、2021年、2022年，北京超算连续三年入围中国HPC TOP前100，连续三次获得“通用CPU算力性能第一名”。同时在2021年AIPerf 500榜单中，北京超算10套AI算力系统上榜，获得总量份额第一名。

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

人才招聘

招生信息

${ v.newstitle }

OpenMMLab“超大规模视觉通用模型”主题直播丨活动预告

来源：上海人工智能实验室｜ 2023-05-05