科研动态

Dynamics

首页 >  科研动态 > 新闻  >  详情

书生多模态大模型:迈向通用人工智能

如同人类的“五感”互相连通密不可分,人工智能的视觉、语言、音频等模态间的边界日渐融合,随着人工智能感知、交互和生成能力的快速发展,多模态大模型正推动人工智能迈进“通感”时代。

上海人工智能实验室(上海AI实验室)于近日发布书生通用大模型体系,其中,书生多模态大模型(以下简称“书生·多模态”;InternLMM,Intern Large Multimodal Model)是具备真实世界理解能力,可实现跨模态生成与交互的大模型。书生·多模态包含200亿参数,由80亿海量多模态样本训练而成,支持350万语义标签的识别和理解,覆盖开放世界常见的类别和概念,在80余种多模态与视觉任务中性能国际领先。

090aba1d1e5105c0c5e0af60985e74f.png

目前,书生·多模态具备开放世界理解、跨模态生成、多模态交互三大核心能力。

7033c5437d550b30441570e0b689417.png

在多项多模态和视觉任务上达到世界顶尖水平


【核心能力一:开放世界理解】

在人工智能的研究中,“开放世界”指非预设、非学术集或封闭集定义的真实世界。传统研究中,人工智能仅能完成预定义任务,即学术集或封闭集定义的任务, 然而这种任务范围与真实的开放世界存在很大差距。例如,ImageNet-1K学术集包含1000种物体,其中约有2种花、48种鸟和21种鱼;而在真实世界中,花鸟鱼的种类数量分别约为45万、1万和2万。在开放世界中,书生·多模态正通过不断学习,获得更接近人类的感知和认知能力。在语义开放方面,书生·多模态可以识别和理解开放世界中超过350万种语义,覆盖日常生活中常见的物体类别、物体动作和光学字符等。书生·多模态完成了从解决预定义任务到执行开放任务的蜕变,为未来多模态AGI模型研究提供了有力的支持。在任务开放方面,书生·多模态可以将图像视为一种新的语言,用户可利用自然语言指令,灵活定义和管理任意视觉任务。该大模型同时拥有多种级别的自定义视觉感知、理解和逻辑推理能力,能力范围覆盖目标对象、输出格式、任务内容等模块。


【核心能力二:跨模态生成】

通过联合学习,书生·多模态可实现模态间的相互转换。研究人员尝试让书生·多模态根据张大千的《湖山清夏图》创作七言绝句。验证结果表明,经过联合学习,书生·多模态已经具备了较好的由图像到文本的跨模态生成能力,并且已经拥有了相当深厚的中国文化积累。生成文本的同时,书生·多模态还给出了创作思路:根据图片确定描绘的是山水清幽的自然景色画面;从画面中寻找能够表达出诗人思想情感的元素,如山峰高耸、云雾缭绕、松涛入画;根据元素构思出诗句;最后根据诗句的韵律和格律进行完善。书生·多模态还特别描述了第四句的灵感:借鉴了唐代诗人韦庄的名句“春水碧于天,画船听雨眠”。 

6891c0ada4bbe6e97d2076752f4fc5c.png

书生·多模态根据张大千的《湖山清夏图》创作的七言绝句

【核心能力三:多模态交互】

书生·多模态继承在上一代书生在常规预定义视觉任务上性能的同时,还创新了人机交互的方式,用户通过光标点击、聊天等方式,即可精准传达指令。书生·多模态降低了AI任务的门槛,使AI成为万千大众都能使用的生产工具。多模态理解、生成和交互能力正成为大模型新一轮演化的重要方向。面向未来,书生·多模态将持续通过原始创新提升模型能力,通过开源开放赋能创新生态,让大模型更好服务于人。


comm@pjlab.org.cn

上海市徐汇区云锦路701号西岸国际人工智能中心37-38层

沪ICP备2021009351号-1