科研动态

Dynamics

首页 >  科研动态 > 新闻  >  详情

书生·浦语灵笔 2.0 正式开源,能力全面升级,支持个性化高质量图文创作

1月17日发布书生·浦语2.0(InternLM2)大语言模型之后,上海人工智能实验室(上海AI实验室)近日推出全面升级的图文混合创作大模型书生·浦语灵笔2.0(InternLM-XComposer2),在大模型落地应用的探索上再迈进一步。

 

书生·浦语灵笔2.0是在书生·浦语2.0的基础上通过图文拓展训练获得的。得益于InternLM2强大的语言建模能力,浦语灵笔2.0的图文理解和创作能力显著提升,可为用户提供更精准、更个性、更丰富、更专业的图文创作体验,在12项图文能力评测中大幅领先同量级开源模型,在部分维度可比肩国际领先水平。

 

书生·浦语灵笔2.0开源了图文创作大模型InternLM-XComposer2-7B)和它背后的图文理解与问答模型InternLM-XComposer2-VL-7B),均提供免费商用。

 

开源仓库(包括模型和代码)https://github.com/InternLM/InternLM-XComposer

技术报告:https://github.com/InternLM/InternLM-XComposer/blob/InternLM-XComposer2/InternLM-XComposer2-Report.pdf


| 更全面的图文混合创作能力


浦语灵笔2.0具有更全面的图文混合创作能力,并提供完善的图文内容编辑工具,支持用户灵活定制专属文章。相比上一代版本,浦语灵笔2.0带来四个维度的用户体验提升。

 

更精准:准确遵循用户指令


浦语灵笔2.0可准确理解自然语言指令,用户可通过输入内容梗概、文章大纲、关键词等框架和要点,实现对文章内容更精准的控制,使生成文章符合用户预期。

 

例如要求浦语灵笔2.0撰写一篇关于大熊猫的科普文章,首先介绍大熊猫的基本特征,其次探讨大熊猫的自然栖息地及面临的环境挑战,之后讨论大熊猫的保护工作现状,最后分析大熊猫的文化符号意义。浦语灵笔2.0根据上述写作要求,精准地完成了图文文章创作。

638421209093500000.gif


更个性:支持用户定制化素材输入


为实现用户的个性化创作需求,浦语灵笔2.0支持用户上传图像和文本素材,并根据用户要求,使用规定素材定制图文文章,保证用户的内容原创性需求。

 

例如,根据图片素材和文字要求,让浦语灵笔创2.0作一篇文笔细腻温暖的哈尔滨游记。

638421209517350000.gif

更丰富:支持各种体裁、场景的内容需求

 

浦语灵笔2.0不仅大幅提升了写作水平,还支持多样化体裁和实用场景的文章写作。根据用户要求,浦语灵笔2.0可生成如知乎问答、小红书笔记等网络跟帖、实用公文、节日祝福、古体诗等多样化风格的内容类型,满足不同场景的使用需求。

638421209882970000.gif

更专业:提供完善的图文内容编辑工具

 

在支持用户创作高质量图文内容的同时,浦语灵笔2.0也提供了完善的内容智能修改和编辑工具,可对文章内容缩写、扩写、根据用户指令改写等,通过提升交互能力,助力用户高效创作。

638421210321340000.gif

| 图文理解能力显著提升,多项表现比肩多模态模型标杆

 

在大模型评测平台OpenCompass的创作能力评测集CreationBench上,浦语灵笔2.0的平均成绩接近GPT-4,其中“内容丰富度”单项评测中,表现超越了GPT-4,并综合领先其他高性能开源模型。

638421211256810000.jpg

高质量的图文写作,离不开强大的图文理解能力的支持。如下图所示,在包括MMMU、MME、MMBench在内的12个主流评测集上,InternLM-XComposer2-VL大幅领先同量级开源模型(参见右图),在MME、MMBench、MathVista等6项评测中取得比GPT-4V和Gemini Pro更好的成绩。

 

638421211490820000.jpg


更多评测细节和分数,请见开源代码仓库:https://github.com/InternLM/InternLM-XComposer?tab=readme-ov-file#evaluation


在实测对话表现方面,浦语灵笔2.0能对图像进行精细理解,体现了模型丰富的多模态知识和强大的推理能力。

638421211882150000.gif

| 全新多模态架构Partial-LoRA

 

浦语灵笔2.0可以同时兼顾图文创作和多模态理解能力,得益于浦语灵笔团队提出的全新多模态模型架构Partial-LoRA (P-LoRA)。

 

在此架构下,对于输入的文字词牌(Text Token),P-LoRA使用原本模型结构进行推理;对于图像编码(Image Token),通过额外的P-LoRA参数赋予模型对图像内容的深刻理解。通过上述方式使模型在实现多模态性能领先的同时,高效地保留了语言基座的能力。

638421212157510000.jpg

comm@pjlab.org.cn

上海市徐汇区云锦路701号西岸国际人工智能中心37-38层

沪ICP备2021009351号-1