科研动态

Dynamics

首页 >  科研动态 > 新闻  >  详情

让AI成为人类的Intern,书生通用大模型体系迈向通专融合 | WAIC 2024

7月4日,2024世界人工智能大会暨人工智能全球治理高级别会议(WAIC)正式开幕。在当天下午举行的科学前沿主论坛上,上海人工智能实验室(上海AI实验室)发布通专融合系列成果。

两大通用基础模型分别迎来全新升级,“书生·浦语2.5”大语言模型具备1M词元(Token)超长文本窗口及开源模型中领先的推理能力,并支持自主规划和在线信息整合,因而具备高效解决复杂问题的能力;“书生·万象2.0”多模态大模型支持图像、视频、文字、语音、三维点云等模态处理,具备强大的真实世界感知能力,并通过首创的渐进式对齐训练策略,实现了“更少成本、更优性能”。


融合通用模型泛化能力与专用模型纵深能力优势,“书生”不断探索跨界创新,并展示出启迪丰富应用的巨大潜力。其中,“书生·风乌”从单一的气象预报模型扩展至气象海洋全方位预报体系,覆盖海陆空多种核心要素,可从短、中、长期多尺度进行全方位天气预报;书生·翼飞”翼型AI生成式系统由上海AI实验室与中国商飞上海飞机设计院(上飞院)联合推出,为全球首个翼型AI生成式系统书生·翼飞(Wing-Wing);“书生·瞳真”裸眼3D光场显示系统创新性地将AI技术与光学系统结合,首次实现了无需穿戴设备的超广角全视差裸眼3D成像。


具身自主探索方面,上海AI实验室发布了“浦源·桃源”城市级具身智能仿真平台。作为大模型与机器人的连接层,”浦源·桃源“涵盖89种功能性场景、10万+高质量可交互数据,构建了“软硬虚实”一体的机器人训练场,有望解决领域内数据匮乏、评测困难的问题。

 

上海AI实验室主任、首席科学家周伯文认为,AGI是新质生产力的重要引擎,是“生产力的生产力,而通专融合是通往AGI的战略路径。上海AI实验室将通过对通专融合的持续探索,让“书生”和AI成为人类的好Intern和好帮手。

 

| 通者愈强:全能选手,全面升级

 

本次发布的书生·浦语2.5(InternLM2.5)大语言模型及书生·万象(InternVL2.0)多模态大模型,均为此前系列通用基础模型的全新升级版本。

 

书生·浦语2.5由上海AI实验室与商汤科技联合香港中文大学及复旦大学共同推出。作为书生·浦语系列模型的最新版本,书生·浦语2.5具备1M词元(Token)超长文本窗口及开源模型中领先的推理能力,并支持自主规划和在线信息整合,成为助力复杂问题高效解决的得力AI助手。

 

针对高质量数据不足的情况下高效地提升模型性能的现实需要,上海AI实验室联合团队提出“合成数据+模型飞轮”双重驱动技术,为书生·浦语系列模型打造性能加速器。联合团队制定了多样化数据合成方案,确保合成数据的正确性与质量。模型本身也被持续不断地应用于自身的进步,能够发现自身问题并进行自我修复,成为“飞轮式”的滚动迭代模式。

 

得益于合成数据与模型飞轮技术的共同作用,书生·浦语2.5表现出同类型模型中领先的复杂推理能力,提供百万字数级别的超长文本处理窗口,同时能够自主连接互联网进行信息检索整合,在现实复杂场景中,具有更高效的问题解决能力。

638558777733600000.jpg

书生·浦语2.5具备超长文本窗口及开源模型中领先的推理能力,支持自主规划和在线信息整合

 

由图像迈入“万象”,升级后的书生·万象延续了上海AI实验室在多模态领域的长期布局和积累,支持图像、视频、文字、语音、三维点云等模态处理,具备强大的真实世界感知能力。书生·万象适用于百余种复杂任务,对比当前主流开源多模态大模型,书生·万象在数学、图表分析、OCR等多个领域表现优异,媲美国际顶尖商业模型。

 

书生·万象团队首创渐进式对齐训练策略,利用小模型在海量带噪数据上进行高效对比式预训练,随后使用大模型在较少高质量精选数据上进行高效生成式对齐训练。这一策略不仅实现了模型“从小到大”、数据“从粗到精”的有效优化,而且仅需20%的传统算力资源即可达到同等效果,从而实现了“更少成本、更优性能”。

 

研究团队同时构建了当前最大的开源图文交错数据集,包含约160亿图像,3万亿文本词元。相较此前最大开源图文数据集,图像数量扩大3倍,文本数量扩大10倍,多模态模型提供了充足的深度理解能力数据基础。

638558778330430000.jpg

书生·万象支持多样化模态输入,可执行百余种任务

 

延续“以高质量开源赋能创新”理念,书生·浦语2.5、书生·万象基础模型及全链条工具体系将陆续开源,助力AI生态繁荣。

 

| 专者愈宽:深度融合,跨界创新

 

面向专业领域复杂应用需求,上海AI实验室积极推进AI技术与多学科交叉融合,与垂直领域的伙伴紧密合作,推出系列专用模型及技术体系,由AI赋能的“行业专家”,实现跨界创新。

 

在气象预报领域,上海AI实验室联合国家气象中心、国家气象信息中心、上海市气象局、南京信息工程大学、香港科技大学、上海交通大学、中国科学技术大学等机构,共同发布书生·风乌(Intern·FengWu)气象海洋全方位预报体系。

 

书生·风乌包含强对流天气预报大模型、全球中期气象预报大模型、海洋气候预报大模型三大模块,可实现分钟级强对流天气至十年长周期海洋气候预测,覆盖降水、气温、风、太阳辐射、洋流、海温、盐度等气候气象要素。在实现预报时长迈进10天、预报分辨率进入10公里级的技术突破后,上海AI实验室再次推动人工智能驱动气象气候预报进入全周期、全尺度、全要素时代,展现了通专融合在环境科学中的应用潜力。目前,书生·风乌已部署于上海市气象局,正应用于对强降水等灾害性天气的预报工作。上海AI实验室正在持续把人工智能方法应用到更广泛的气象、环境、天文、地质等地球科学问题研究中。同时,书生·风乌全面开源,与全球携手,共同应对气候变化、“碳中和”、防灾减灾、能源安全等重大需求。

638558778899110000.jpg

书生·风乌支持全周期、全尺度、全要素气象预报

以AI为大国重器点亮双翼,与“大飞机”事业紧密结合,上海AI实验室科学智能中心与中国商飞上海飞机设计院(上飞院)联合推出全球首个翼型AI生成式系统书生·翼飞(Intern·Wing-Wing)。通过AIGC与高端装备设计技术深度融合,集成专家知识与原创先进算法,书生·翼飞突破性具备了翼型设计方案秒级生成、灵活编辑能力,为新一代超临界翼型研发及多类型气动设计提供AI技术支持。

 

书生·瞳真(Intern·EyeReal)裸眼3D光场显示系统,首次实现了无需穿戴设备的超广角全视差裸眼3D成像。与传统的3D显示技术不同,书生·瞳真系统基于人工智能方法,首次实现了可供大范围观看的全视差(水平、垂直、运动、聚焦)裸眼3D显示效果。通过AI技术对光学系统有限空间带宽积进行创新分配,保证双眼能看到立体效果,克服传统技术产生的眩晕不适感,为用户带来更具舒适度和成像真实感的3D观看体验,实现“所见即所得”。

 

围绕通用大模型的专业能力构建,上海AI实验室已陆续推出多个专用大模型,如,书生·丰登种业大模型书生·化学大模型以及书生·浦动体育技战术分析大模型,不断拓宽书生专用模型的“家族”谱系。

 

| 具身智能:走进虚拟,走向现实

 

本次推出的浦源·桃源(OpenXLab·GRUtopia)为首个城市级具身智能数字训练场,连接大模型与机器人,为具身智能技术的研究和应用提供了一个高度真实的测试环境。浦源·桃源包含十万级别高质量、可交互场景数据,首次覆盖超市、医院等89种功能性场景,提供语言描述、物体类别、部件、材质等全方位标注。平台利用 AIGC 技术进行无限具身任务生成与评测,有望解决具身智能领域数据匮乏、评测困难等问题。

1.gif

图片具身智能机器人可在浦源·桃源中进行仿真训练

“桃源”一名引自《桃花源记》,意指平台“城市级虚拟社会”的特点。平台基于大语言模型构建了 NPC 智能交互系统,为具身智能体提供具有社会属性的真实交互环境,支持通用机器人从底层控制到高级任务执行的全方位研究,筑牢更便利的AI基础设施,赋能具身智能大模型研发。

 

同时,围绕具身自主探索与世界模型,实验室进行了一系列探索,攻关解决具身智能的“大脑”思考与“小脑”控制问题。在“大脑”方面,通过智能体自身状态认知、复杂任务分解分配、底层技能协同控制等三方面的创新,首次实现了大模型驱动无人机、机械臂、机器狗等三种异构智能体协同。而对于“小脑”,实验室通过GPU高性能并行仿真和强化学习,高效实现了机器人在真实世界里完成一些高难度动作,最高可以单卡训练1小时就能实现真实世界380天的训练效果。

 

面向真实世界场景的预测模拟,实验室提出了开源且通用的自动驾驶视频预测模型GenAD,可泛化到任意场景,被多种驾驶行为操控。如同自动驾驶领域的“SORA”。该模型拥有目前全球最大的公开自动驾驶视频数据集,基于一张输入图片,即可输出具有高质量、连续、多样化的未来世界预测视频,助力自动驾驶大模型深度理解复杂物理世界。

2.gif

GenAD生成的自动驾驶视频


comm@pjlab.org.cn

上海市徐汇区云锦路701号西岸国际人工智能中心37-38层

沪ICP备2021009351号-1