上海AI实验室、中央广播电视总台联合发布央视听媒体大模型

来源：上海人工智能实验室｜ 2023-07-20

7月20日，由中央广播电视总台、上海市人民政府联合主办的第二届全球媒体创新论坛在上海召开，230余位来自国际组织、中外主流媒体机构、中外智库、跨国企业等各领域代表，通过线上线下方式参与论坛及相关活动。本届论坛上，上海人工智能实验室（上海AI实验室）、中央广播电视总台联合发布“央视听媒体大模型”（CMG Media GPT，以下简称“央视听大模型”）。双方此前联合多家单位成立大模型语料数据联盟；携手推动视听媒体编创范式变革，以科技创新加速赋能视听产业应用。

上海AI实验室继两周前联合商汤科技等发布全新升级的“书生通用大模型体系”后，又将大模型的应用探索拓展到视听媒体领域。本次联合中央广播电视总台发布的央视听大模型为首个专注于视听媒体内容生产的AI大模型，集合了中央广播电视总台的海量视听数据与上海AI实验室的原创先进算法、大模型训练基础设施优势。基于上海AI实验室的书生通用大模型体系，央视听大模型将拓展视听媒体的创意空间、提高创作效率并带来交互方式的变革。

“当我们谈论大模型时，不应只关注对话聊天功能，更应看到它在提高生产效率方面的作用。”上海AI实验室主任助理乔宇表示，上海AI实验室将与学术界、产业界紧密合作，共同推动大模型落地应用，使之成为推动生产力变革的技术基础设施和社会发展的重要基石。

中央广播电视总台超高清视音频制播呈现国家重点实验室负责人表示：“总台积极推进‘思想+艺术+技术’的融合创新，本次联合上海AI实验室发布‘央视听媒体大模型’，就是要使用总台视音频媒体大数据在实验室原创的通用大模型上进行训练，探索在确保媒体真实性和安全性的基础上，运用生成式人工智能，提升视听媒体制作的质量和效率。”

【媒体编创：在“聊天”中工作】

以大模型的多模态理解、交互和生成能力为基础，媒体工作者将来有望在“聊天”中完成工作。

目前，央视听大模型具备了强大的视频理解能力和视听媒体问答能力，AI相当于拥有了感知真实世界的“眼睛”和“耳朵”。同时，央视听大模型可根据提供的视频创作文字——从主持词到新闻稿件，甚至诗歌。媒体编辑可在大模型的协助下，一键为视频生成风格各异的解说词，当前生成内容已覆盖美食、文化和科技等多个领域。

央视听大模型可通过逐步呈现的视觉元素，理解并分析视频。用户通过与AI聊天对话的形式，深挖视频蕴含信息，进一步完善输出的内容。当它“看”到央视节目《中国诗词大会》中“看图猜诗词”环节视频，便可理解视频内容并生成出李白的《望庐山瀑布》。

央视听大模型“看”懂视频中的画面联想、并匹配古诗

央视听大模型同样了解新近的科技进展。当“看”到我国空间站模型的相关视频，即能生成视频镜头脚本及旁白。

央视听大模型可协助为视频配上文字稿

央视听媒体大模型丰富生动的表达，还得益于背后的书生·浦语大模型强大的语言能力和宽广的知识体系以及书生·多模态大模型强大的开放世界理解和内容生成能力。除了为媒体编创赋能，上海AI实验室还通过全链条开源（https://github.com/InternLM/InternLM）推动书生·浦语在更广泛的场景落地应用。

央视听大模型还为用户提供了强大的交互式图像、视频编辑与创作能力，使得新的内容生产方式变成可能。用户仅需使用简单的光标和文字指令，即可快速修改或编辑图像，实现“指哪改哪，画随口出”。

在下图的示意中，使用光标点击选中右边的鹦鹉，在对话框输入“小仓鼠”，轻点鼠标即可将鹦鹉替换成小仓鼠的图像。

轻点鼠标即可对图像/视频进行编辑修改

上海AI实验室科研团队介绍，央视听大模型具备的视觉理解能力，源于跨模态互动技术的最新突破——大模型将图像/视频视为另一种“语言”，并将视觉与语言对齐，从而降低人工智能视觉任务的门槛。基于对多模态数据的建模，央视听大模型可感知图像的风格与纹理笔触，通过将用户输入的文本指令与图像对齐，实现按照用户需求生成画面及风格一致的其他内容。

借助强大的对话能力和易用的互动模式，央视听大模型将推动人机互动达到新高度。

【内容创作：一键生成节目内容、数字人主播】

具备超强理解能力的同时，央视听大模型还拥有通用的生成能力，即通过文本直接生成视频，视频质量可达到高清视频标准（2K和24FPS）。在生成内容的可控性、流畅性以及生成细节等方面达到国际领先水平。值得关注的是，央视听大模型支持故事一致性和镜头连贯性生成，在生成有故事情节长视频的同时，还保证故事转场的流畅性。未来，该项技术有望广泛应用于动画及电视等视频内容的制作中。

用央视听大模型生成流畅、高清、带有故事情节的视频

除了视频内容，央视听大模型还具备快速生成“数字人主播”的能力。使用较短的真人采集视频即可生成对应的数字人。AI生成的数字人主播以“真人”形象呈现，不仅能根据既定文案和背景场景快速生成播报视频，还可自动学习真人的语言及动作习惯，做到形象更逼真，表情更自然。

支持快速生成形象逼真、表情自然的数字人主播

通过央视听大模型的生成技术，不仅可实现主播“分身”，更能简化视频播报的创作过程。用户在视频创作素材库选择视频模板，输入文案，便可一键生成知识分享、品牌宣传、短视频带货、培训宣讲、热点资讯等各类数字人视频。大模型中还提供AI文案编写功能，用户输入粗略想法即可快速生成播报文案，并合成数字人视频。

目前，“数字人直播”支持中英文等多语种播报，同时兼容国内多地区方言播报，随着语言版本的不断扩充，用户可以轻松创作更多跨语种的国际化内容。

此外，基于全球首个城市级NeRF实景三维大模型书生·天际，央视听大模型还提供了场景渲染的能力，可进行高精度实景三维建模，建模范围具有无限可扩展性；同时提供对城市场景的编辑能力，包括移除、新建、旋转城市建筑，对场景进行光照、季节等风格变换。该技术有望广泛应用于影视制作，降低建模及渲染成本，提高制作效率。

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

上海AI实验室、中央广播电视总台联合发布央视听媒体大模型

来源：上海人工智能实验室｜ 2023-07-20