支持全面任务,无需特定微调,Hulk推动人体感知迈向通用模型时代
来源: 上海人工智能实验室|2024-04-07
近日,上海人工智能实验室(上海AI实验室)联合浙江大学、商汤科技等机构,联合发布新一代以人体感知为中心(Human-Centric)的多模态大模型Hulk,该项技术将支撑实现全面感知任务,助力元宇宙、运动分析等领域的发展,推动人体感知迈向通用模型时代。
基于原创的统一建模和模态转换方案,Hulk实现多个突破:首次实现无需微调的一个大模型同时支持2D/3D、骨架、视觉语言等多模态任务;首次实现不同模态间的任意转换;首次以单一模型在8大类以人为中心的感知任务超越各类最佳专有模型(Specialists)的能力。
Hulk模型代码现已开源,并提供免费商用,为人体感知相关应用场景,提供通用化AI技术支持。
论文链接: https://arxiv.org/pdf/2312.01697.pdf
开源链接: https://github.com/OpenGVLab/Hulk
| 无需微调,一个通用模型具备多种任务全面感知能力
针对行人检测、动作识别、姿态估计等以人为中心的感知任务,当前,已有若干面向人体动作及姿态理解的模型被广泛应用于元宇宙、运动分析等领域。然而,特定类型模型往往仅能处理行人检测或动作识别等单项任务,由于未能充分利用不同任务间的共性,面对新任务时,模型往往需要重新被设计或调整。因此,能实现全面感知任务的通用性模型,将具备巨大应用潜力。
针对现状,上海AI实验室联合团队提出了首个以人体为中心的多模态通用模型Hulk,可对2D/3D视觉、基于骨架的任务和各类视觉语言任务进行处理,而无需针对特定任务进行微调,首次达成了适应多种模态和任务类型的“通用性”,实现全面感知。
  
  
基于同一图像素材,Hulk可同时执行2D/3D视觉、基于骨架等各类感知任务
在人体感知模型层面,Hulk首次实现了不同输入模态之间的任意转换。评测结果显示,Hulk在人体解析、2D姿态估计、3D姿态估计、行人属性识别、图像描述、行人检测、网格重建、动作识别8大类任务上,均取得最佳性能表现。

Hulk在8大类任务的多个数据集中表现出最佳性能
| 多面手:原创方案实现单一模型胜任多个模态任务
统一图像、语言、分割图等多样化输入输出格式是通用人体感知模型研究面临的重大挑战。与此同时,当前普遍采用的人体感知方法,其识别与解析模块存在差异,亟需统一的架构设计以适应多样化任务。
面对上述挑战,上海AI实验室联合团队提出了“以简应繁”的创新方案——模态统一建模和转换方案,并在约3千万标记的人体中心数据集上进行训练,为Hulk赋予了通用性。
Hulk可将不同的任务输入、输出归纳为四种模态,将以人体为中心多样化任务视为模态转换任务。同时,研究人员将不同任务的模型设计统一为编码器-解码器架构,实现了模态统一建模。以简洁的格式设计有效地提高了模型应对不同任务和数据集时的可拓展性。

 

