科研动态

Dynamics

首页 >  科研动态 > 新闻  >  详情

首个图文混合创作大模型“书生·浦语灵笔”正式开源

       近日,上海人工智能实验室(上海AI实验室)推出首个图文混合创作大模型书生·浦语灵笔(InternLM-XComposer,以下简称“浦语灵笔”),依托强大的多模态性能,解锁“一键生成”图文混合文章的创作能力,为大模型落地应用提供更多可能。

       目前,浦语灵笔已开源其中的智能创作和对话(InternLM-XComposer-7B)及多任务预训练(InternLM-XComposer-VL-7B)版本,并提供免费商用。

       开源链接:https://github.com/InternLM/InternLM-XComposer

       技术报告:https://arxiv.org/abs/2309.15112


      今年7月以来,上海AI实验室陆续开源了书生·浦语大语言模型的7B(InterLM-7B20B(InternLM-20B)版本,为业界提供了完整的大模型研发与应用基座,以及全链条工具体系。基于书生·浦语大语言模型(InternLM),浦语灵笔接受视觉和语言模态输入,不仅在图文对话方面表现优秀,更具备图文并茂文章的“一键生成”能力。

     准确图文理解,一键图文并茂

      浦语灵笔能够进行流利的中英文图文对话,准确理解图像内容。得益于书生·浦语高质量多语言预训练的优势,浦语灵笔表现出对中国文化深厚的知识积淀。例如,向浦语灵笔输入相关画作,其迅速识别并反馈画作表现主题为《赤壁之战》典故,亦能准确介绍影响成败的关键因素,体现出在图像内容理解和知识储备方面的优秀性能。

638354874121600000.png

 浦语灵笔识别中国文化典故

       在多模态图文对话的“基本功”之上,浦语灵笔更是解锁了图文并茂文章创作的全新能力

       大语言模型(LLM)具备文本写作的能力,然而高质量文章往往需要准确且有趣的插图才“更显生动”。浦语灵笔团队将书生·浦语强大的语言能力向多模态拓展,使其能够完成多模态文章创作。用户仅需提供主题,便可一键生成图文并茂的文章,体验全新的视觉与文本创作范式。例如,向浦语灵笔提出创作一篇旅游攻略,该模型可迅速生成涵盖历史沿革、主要景点文物介绍的长篇文章,并在适当位置自动插入与文字信息对应的图片。除自动配图能力外,浦语灵笔还提供了配图推荐和更换功能,根据用户实际需求定制图文内容。

638326300076730000.gif 

       浦语灵笔生成中文旅游攻略

       目前,浦语灵笔已支持科普文稿、营销广告、新闻稿件、影视评论、生活指南等类型文章的图文并茂生成,并将逐渐开放更多能力,适应更多样化任务需求。

638326304050370000.gif

浦语灵笔生成英文电影评论

      图文文章创作“三步走”

       浦语灵笔为图文文章创作设计了“三步走”的算法流程。

638354875084630000.png

浦语灵笔图文文章创作流程

       理解用户指令,创作符合主题要求的长文章:浦语灵笔具有强大的写作能力,根据用户输入的主题,创作出文采斐然的文章。

       智能分析文章,模型自动规划插图的理想位置,并生成所需图像的内容要求:浦语灵笔自动分析文章内容和段落布局,规划需要插图图片的位置。对于每个模型判断需要插图的位置,同时生成对图片内容需求的描述。

       多层次智能筛选,利用多模态大模型的图像理解能力,从图库中锁定最完美的图片:采用从粗筛到精选的配图策略,根据生成图像内容需求,浦语灵笔会首先采用图文检索(Text-Image Retrieval)方式从海量图库中选择出一组候选图片。随后,利用多模态大模型强大的图像理解能力,将候选图片作为输入内容,让模型自动选择最符合文章上下文内容和整体图像风格的图片,完成文章的自动配图。

     能力评测:综合领先开源多模态大模型

      浦语灵笔出色的图文创作效果,得益于其多任务预训练模型(InternLM-XComposer-VL-7B)强大的多模态理解能力。研究人员采用5个主流的多模态大模型评测对InternLM-XComposer-VL-7B的能力进行了详细测试,包含:

      MME Benchmark: 包括14个子任务的多模态模型全面评测,关注模型的感知(Perception)和认知(Recognition)能力;

      MMBench: 包括20个能力纬度和使用ChatGPT循环评估策略的多模态评测;

      MMBench-CN:简体中文版本问题和答案的MMBench评测;

      Seed-Bench: 提供包括人工标注的1.9万道多模态多选题目的多模态评测;

      CCBench: 针对中国文化理解的中文多模态评测。

      评测结果显示,在上述5项中英文多模态评测中,浦语灵笔均体现出卓越性能。

4.png

浦语灵笔与其他开源模型的性能对比

      MME Benchmark关注模型的感知(Perception)和认知(Recognition)能力,浦语灵笔综合性能领先。

5.png

      MMBench包括了20个能力项,浦语灵笔取得了最佳成绩。

6.png

      MMBench-CN是中文版本的MMBench评测,关注模型的中文多模态理解能力,浦语灵笔亦取得了最佳成绩,体现了强大的中文能力。

7.png

      SEED-Bench 提供包括人工标注的1.9万道多模态多选题目, 覆盖12个评测维度,浦语灵笔在图像内容理解上准确率表现出色。

 

8.png

      在针对中国文化理解设计的多模态评测CCBench,浦语灵笔评测成绩均大幅度领先,生动体现其在中国文化方面深厚的知识积淀。

9.png

      浦语灵笔现已开源,同时上线GitHub、Hugging Face及魔搭社区(ModelScope),欢迎开发者下载试用。



comm@pjlab.org.cn

上海市徐汇区云锦路701号西岸国际人工智能中心37-38层

沪ICP备2021009351号-1