让AI成为人类的Intern，书生通用大模型体系迈向通专融合 | WAIC 2024

7月4日，2024世界人工智能大会暨人工智能全球治理高级别会议（WAIC）正式开幕。在当天下午举行的科学前沿主论坛上，上海人工智能实验室（上海AI实验室）发布通专融合系列成果。

两大通用基础模型分别迎来全新升级，“书生·浦语2.5”大语言模型具备1M词元（Token）超长文本窗口及开源模型中领先的推理能力，并支持自主规划和在线信息整合，因而具备高效解决复杂问题的能力；“书生·万象2.0”多模态大模型支持图像、视频、文字、语音、三维点云等模态处理，具备强大的真实世界感知能力，并通过首创的渐进式对齐训练策略，实现了“更少成本、更优性能”。

融合通用模型泛化能力与专用模型纵深能力优势，“书生”不断探索跨界创新，并展示出启迪丰富应用的巨大潜力。其中，“书生·风乌”从单一的气象预报模型扩展至气象海洋全方位预报体系，覆盖海陆空多种核心要素，可从短、中、长期多尺度进行全方位天气预报；“书生·翼飞”翼型AI生成式系统由上海AI实验室与中国商飞上海飞机设计院（上飞院）联合推出，为全球首个翼型AI生成式系统书生·翼飞（Wing-Wing）；“书生·瞳真”裸眼3D光场显示系统创新性地将AI技术与光学系统结合，首次实现了无需穿戴设备的超广角全视差裸眼3D成像。

具身自主探索方面，上海AI实验室发布了“浦源·桃源”城市级具身智能仿真平台。作为大模型与机器人的连接层，”浦源·桃源“涵盖89种功能性场景、10万+高质量可交互数据，构建了“软硬虚实”一体的机器人训练场，有望解决领域内数据匮乏、评测困难的问题。

上海AI实验室主任、首席科学家周伯文认为，AGI是新质生产力的重要引擎，是“生产力的生产力，而通专融合是通往AGI的战略路径。上海AI实验室将通过对通专融合的持续探索，让“书生”和AI成为人类的好Intern和好帮手。

| 通者愈强：全能选手，全面升级

本次发布的书生·浦语2.5（InternLM2.5）大语言模型及书生·万象（InternVL2.0）多模态大模型，均为此前系列通用基础模型的全新升级版本。

书生·浦语2.5由上海AI实验室与商汤科技联合香港中文大学及复旦大学共同推出。作为书生·浦语系列模型的最新版本，书生·浦语2.5具备1M词元（Token）超长文本窗口及开源模型中领先的推理能力，并支持自主规划和在线信息整合，成为助力复杂问题高效解决的得力AI助手。

针对高质量数据不足的情况下高效地提升模型性能的现实需要，上海AI实验室联合团队提出“合成数据+模型飞轮”双重驱动技术，为书生·浦语系列模型打造性能加速器。联合团队制定了多样化数据合成方案，确保合成数据的正确性与质量。模型本身也被持续不断地应用于自身的进步，能够发现自身问题并进行自我修复，成为“飞轮式”的滚动迭代模式。

得益于合成数据与模型飞轮技术的共同作用，书生·浦语2.5表现出同类型模型中领先的复杂推理能力，提供百万字数级别的超长文本处理窗口，同时能够自主连接互联网进行信息检索整合，在现实复杂场景中，具有更高效的问题解决能力。

书生·浦语2.5具备超长文本窗口及开源模型中领先的推理能力，支持自主规划和在线信息整合

由图像迈入“万象”，升级后的书生·万象延续了上海AI实验室在多模态领域的长期布局和积累，支持图像、视频、文字、语音、三维点云等模态处理，具备强大的真实世界感知能力。书生·万象适用于百余种复杂任务，对比当前主流开源多模态大模型，书生·万象在数学、图表分析、OCR等多个领域表现优异，媲美国际顶尖商业模型。

书生·万象团队首创渐进式对齐训练策略，利用小模型在海量带噪数据上进行高效对比式预训练，随后使用大模型在较少高质量精选数据上进行高效生成式对齐训练。这一策略不仅实现了模型“从小到大”、数据“从粗到精”的有效优化，而且仅需20%的传统算力资源即可达到同等效果，从而实现了“更少成本、更优性能”。

研究团队同时构建了当前最大的开源图文交错数据集，包含约160亿图像，3万亿文本词元。相较此前最大开源图文数据集，图像数量扩大3倍，文本数量扩大10倍，多模态模型提供了充足的深度理解能力数据基础。

书生·万象支持多样化模态输入，可执行百余种任务

延续“以高质量开源赋能创新”理念，书生·浦语2.5、书生·万象基础模型及全链条工具体系将陆续开源，助力AI生态繁荣。

| 专者愈宽：深度融合，跨界创新

面向专业领域复杂应用需求，上海AI实验室积极推进AI技术与多学科交叉融合，与垂直领域的伙伴紧密合作，推出系列专用模型及技术体系，由AI赋能的“行业专家”，实现跨界创新。

在气象预报领域，上海AI实验室联合国家气象中心、国家气象信息中心、上海市气象局、南京信息工程大学、香港科技大学、上海交通大学、中国科学技术大学等机构，共同发布书生·风乌（Intern·FengWu）气象海洋全方位预报体系。

书生·风乌包含强对流天气预报大模型、全球中期气象预报大模型、海洋气候预报大模型三大模块，可实现分钟级强对流天气至十年长周期海洋气候预测，覆盖降水、气温、风、太阳辐射、洋流、海温、盐度等气候气象要素。在实现预报时长迈进10天、预报分辨率进入10公里级的技术突破后，上海AI实验室再次推动人工智能驱动气象气候预报进入全周期、全尺度、全要素时代，展现了通专融合在环境科学中的应用潜力。目前，书生·风乌已部署于上海市气象局，正应用于对强降水等灾害性天气的预报工作。上海AI实验室正在持续把人工智能方法应用到更广泛的气象、环境、天文、地质等地球科学问题研究中。同时，书生·风乌全面开源，与全球携手，共同应对气候变化、“碳中和”、防灾减灾、能源安全等重大需求。

书生·风乌支持全周期、全尺度、全要素气象预报

以AI为大国重器点亮双翼，与“大飞机”事业紧密结合，上海AI实验室科学智能中心与中国商飞上海飞机设计院（上飞院）联合推出全球首个翼型AI生成式系统书生·翼飞（Intern·Wing-Wing）。通过AIGC与高端装备设计技术深度融合，集成专家知识与原创先进算法，书生·翼飞突破性具备了翼型设计方案秒级生成、灵活编辑能力，为新一代超临界翼型研发及多类型气动设计提供AI技术支持。

书生·瞳真（Intern·EyeReal）裸眼3D光场显示系统，首次实现了无需穿戴设备的超广角全视差裸眼3D成像。与传统的3D显示技术不同，书生·瞳真系统基于人工智能方法，首次实现了可供大范围观看的全视差（水平、垂直、运动、聚焦）裸眼3D显示效果。通过AI技术对光学系统有限空间带宽积进行创新分配，保证双眼能看到立体效果，克服传统技术产生的眩晕不适感，为用户带来更具舒适度和成像真实感的3D观看体验，实现“所见即所得”。

围绕通用大模型的专业能力构建，上海AI实验室已陆续推出多个专用大模型，如，书生·丰登种业大模型、书生·化学大模型以及书生·浦动体育技战术分析大模型，不断拓宽书生专用模型的“家族”谱系。

| 具身智能：走进虚拟，走向现实

本次推出的浦源·桃源（OpenXLab·GRUtopia）为首个城市级具身智能数字训练场，连接大模型与机器人，为具身智能技术的研究和应用提供了一个高度真实的测试环境。浦源·桃源包含十万级别高质量、可交互场景数据，首次覆盖超市、医院等89种功能性场景，提供语言描述、物体类别、部件、材质等全方位标注。平台利用 AIGC 技术进行无限具身任务生成与评测，有望解决具身智能领域数据匮乏、评测困难等问题。

图片具身智能机器人可在浦源·桃源中进行仿真训练

“桃源”一名引自《桃花源记》，意指平台“城市级虚拟社会”的特点。平台基于大语言模型构建了 NPC 智能交互系统，为具身智能体提供具有社会属性的真实交互环境，支持通用机器人从底层控制到高级任务执行的全方位研究，筑牢更便利的AI基础设施，赋能具身智能大模型研发。

同时，围绕具身自主探索与世界模型，实验室进行了一系列探索，攻关解决具身智能的“大脑”思考与“小脑”控制问题。在“大脑”方面，通过智能体自身状态认知、复杂任务分解分配、底层技能协同控制等三方面的创新，首次实现了大模型驱动无人机、机械臂、机器狗等三种异构智能体协同。而对于“小脑”，实验室通过GPU高性能并行仿真和强化学习，高效实现了机器人在真实世界里完成一些高难度动作，最高可以单卡训练1小时就能实现真实世界380天的训练效果。

面向真实世界场景的预测模拟，实验室提出了开源且通用的自动驾驶视频预测模型GenAD，可泛化到任意场景，被多种驾驶行为操控。如同自动驾驶领域的“SORA”。该模型拥有目前全球最大的公开自动驾驶视频数据集，基于一张输入图片，即可输出具有高质量、连续、多样化的未来世界预测视频，助力自动驾驶大模型深度理解复杂物理世界。

由GenAD生成的自动驾驶视频

comm@pjlab.org.cn

上海市徐汇区龙文路129号国际传媒港L1楼

沪ICP备2021009351号-1

科研动态

让AI成为人类的Intern，书生通用大模型体系迈向通专融合 | WAIC 2024

网站地图