科研动态

Dynamics

首页 >  科研动态 > 新闻  >  详情

支持全面任务,无需特定微调,Hulk推动人体感知迈向通用模型时代

近日,上海人工智能实验室(上海AI实验室)联合浙江大学、商汤科技等机构,联合发布新一代以人体感知为中心(Human-Centric)的多模态大模型Hulk,该项技术将支撑实现全面感知任务,助力元宇宙、运动分析等领域的发展,推动人体感知迈向通用模型时代。

 

基于原创的统一建模和模态转换方案,Hulk实现多个突破:首次实现无需微调的一个大模型同时支持2D/3D、骨架、视觉语言等多模态任务;首次实现不同模态间的任意转换;首次以单一模型在8大类以人为中心的感知任务超越各类最佳专有模型(Specialists)的能力。


Hulk模型代码现已开源,并提供免费商用,为人体感知相关应用场景,提供通用化AI技术支持。

论文链接: https://arxiv.org/pdf/2312.01697.pdf

开源链接: https://github.com/OpenGVLab/Hulk


| 无需微调,一个通用模型具备多种任务全面感知能力

针对行人检测、动作识别、姿态估计等以人为中心的感知任务,当前,已有若干面向人体动作及姿态理解的模型被广泛应用于元宇宙、运动分析等领域。然而,特定类型模型往往仅能处理行人检测或动作识别等单项任务,由于未能充分利用不同任务间的共性,面对新任务时,模型往往需要重新被设计或调整。因此,能实现全面感知任务的通用性模型,将具备巨大应用潜力。

 

针对现状,上海AI实验室联合团队提出了首个以人体为中心的多模态通用模型Hulk,可对2D/3D视觉、基于骨架的任务和各类视觉语言任务进行处理,而无需针对特定任务进行微调,首次达成了适应多种模态和任务类型的“通用性”,实现全面感知。

638481091921050000.gif  638481092286430000.gif

638481092636350000.gif  638481092883460000.gif

基于同一图像素材,Hulk可同时执行2D/3D视觉、基于骨架等各类感知任务

在人体感知模型层面,Hulk首次实现了不同输入模态之间的任意转换。评测结果显示,Hulk在人体解析、2D姿态估计、3D姿态估计、行人属性识别、图像描述、行人检测、网格重建、动作识别8大类任务上,均取得最佳性能表现。

638481095919510000.jpg

Hulk在8大类任务的多个数据集中表现出最佳性能

| 多面手:原创方案实现单一模型胜任多个模态任务

统一图像、语言、分割图等多样化输入输出格式是通用人体感知模型研究面临的重大挑战。与此同时,当前普遍采用的人体感知方法,其识别与解析模块存在差异,亟需统一的架构设计以适应多样化任务。


面对上述挑战,上海AI实验室联合团队提出了“以简应繁”的创新方案——模态统一建模和转换方案,并在约3千万标记的人体中心数据集上进行训练,为Hulk赋予了通用性。

 

Hulk可将不同的任务输入、输出归纳为四种模态将以人体为中心多样化任务视为模态转换任务。同时,研究人员将不同任务的模型设计统一为编码器-解码器架构,实现了模态统一建模。以简洁的格式设计有效地提高了模型应对不同任务和数据集时的可拓展性。

638481097139500000.jpg

Hulk可实现个以人为中心的任务的输入和输出模式

为实现不同任务模态间的任意转换,研究人员为Hulk设计了对称的模型结构。在任务实施过程中,标识器(Tokenizer)先将多模态数据嵌入到通用流形空间中的词汇序列,编码器(Encoder)模块从词汇序列中提取通用的以人体为中心概念表征,模态指示器(Indicator)引导解码器(Decoder)将该表征转换为输出模态的词汇,最后,解标识器(De-Tokenizer)将词汇重构为期望的输出模态,以完成各类以人体为中心任务面临的模态转换。

 638481097842770000.jpg

Hulk整体模型结构图

上海AI实验室此前提出的HumanBench,为首个以人为中心的标准可靠预训练数据集,包含1100万图片,使下游17个任务精度提升1%-8%。在通用模型探索方面,实验室提出了首个以人体为中心的统一模型UniHCP,首次在单一模型中具备各类专有模型(Specialists)的任务能力。以上成果相关论文均被CVPR 2023接收,并获得广泛影响。


comm@pjlab.org.cn

上海市徐汇区云锦路701号西岸国际人工智能中心37-38层

沪ICP备2021009351号-1