书生多模态大模型：迈向通用人工智能

来源：上海人工智能实验室｜ 2023-07-18

如同人类的“五感”互相连通密不可分，人工智能的视觉、语言、音频等模态间的边界日渐融合，随着人工智能感知、交互和生成能力的快速发展，多模态大模型正推动人工智能迈进“通感”时代。

上海人工智能实验室（上海AI实验室）于近日发布书生通用大模型体系，其中，书生多模态大模型（以下简称“书生·多模态”；InternLMM，Intern Large Multimodal Model）是具备真实世界理解能力，可实现跨模态生成与交互的大模型。书生·多模态包含200亿参数，由80亿海量多模态样本训练而成，支持350万语义标签的识别和理解，覆盖开放世界常见的类别和概念，在80余种多模态与视觉任务中性能领先。

目前，书生·多模态具备开放世界理解、跨模态生成、多模态交互三大核心能力。

在多项多模态和视觉任务上达到世界顶尖水平

【核心能力一：开放世界理解】

在人工智能的研究中，“开放世界”指非预设、非学术集或封闭集定义的真实世界。传统研究中，人工智能仅能完成预定义任务，即学术集或封闭集定义的任务, 然而这种任务范围与真实的开放世界存在很大差距。例如，ImageNet-1K学术集包含1000种物体，其中约有2种花、48种鸟和21种鱼；而在真实世界中，花鸟鱼的种类数量分别约为45万、1万和2万。在开放世界中，书生·多模态正通过不断学习，获得更接近人类的感知和认知能力。在语义开放方面，书生·多模态可以识别和理解开放世界中超过350万种语义，覆盖日常生活中常见的物体类别、物体动作和光学字符等。书生·多模态完成了从解决预定义任务到执行开放任务的蜕变，为未来多模态AGI模型研究提供了有力的支持。在任务开放方面，书生·多模态可以将图像视为一种新的语言，用户可利用自然语言指令，灵活定义和管理任意视觉任务。该大模型同时拥有多种级别的自定义视觉感知、理解和逻辑推理能力，能力范围覆盖目标对象、输出格式、任务内容等模块。

【核心能力二：跨模态生成】

通过联合学习，书生·多模态可实现模态间的相互转换。研究人员尝试让书生·多模态根据张大千的《湖山清夏图》创作七言绝句。验证结果表明，经过联合学习，书生·多模态已经具备了较好的由图像到文本的跨模态生成能力，并且已经拥有了相当深厚的中国文化积累。生成文本的同时，书生·多模态还给出了创作思路：根据图片确定描绘的是山水清幽的自然景色画面；从画面中寻找能够表达出诗人思想情感的元素，如山峰高耸、云雾缭绕、松涛入画；根据元素构思出诗句；最后根据诗句的韵律和格律进行完善。书生·多模态还特别描述了第四句的灵感：借鉴了唐代诗人韦庄的名句“春水碧于天，画船听雨眠”。

书生·多模态根据张大千的《湖山清夏图》创作的七言绝句

【核心能力三：多模态交互】

书生·多模态继承在上一代书生在常规预定义视觉任务上性能的同时，还创新了人机交互的方式，用户通过光标点击、聊天等方式，即可精准传达指令。书生·多模态降低了AI任务的门槛，使AI成为万千大众都能使用的生产工具。多模态理解、生成和交互能力正成为大模型新一轮演化的重要方向。面向未来，书生·多模态将持续通过原始创新提升模型能力，通过开源开放赋能创新生态，让大模型更好服务于人。

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

InternVL

MinerU

LMDeploy

InternLM

OpenCompass

XTuner

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

书生多模态大模型：迈向通用人工智能

来源：上海人工智能实验室｜ 2023-07-18