周伯文：通专融合是通往AGI的战略路径

来源：上海人工智能实验室｜2024-07-04

7月4日，2024世界人工智能大会暨人工智能全球治理高级别会议（WAIC 2024）在上海开幕。上海人工智能实验室主任、首席科学家，清华大学惠妍讲席教授，衔远科技创始人周伯文在WAIC 2024科学前沿主论坛上发表开场报告。以下为报告全文。

尊敬的各位领导、各位来宾，大家下午好。

我是上海人工智能实验室周伯文，非常有幸在这个隆重的场合下代表实验室与大家进行主旨分享。我的报告主题是《通专融合：通用人工智能前沿探索与价值实现》。

自21世纪初以来，我们进入了以人工智能的兴起为代表，并逐步走向通用人工智能的第四次工业革命，因此又称为智能化时代。这一时代的特点是知识发现加速，人类能力的边界得以拓展，产业的数字化和智能化持续升级，从而带来生产范式的变革。通用人工智能对于人、工具、资源、技术等生产力要素具有广泛赋能的特性，可以显著提升其他生产力，因此我们说它是新质生产力的重要引擎，是“生产力的生产力”。

AGI路径的思考

我本人深入思考通用人工智能始于2015、2016年。2016年AlphaGo击败了人类的世界冠军，大家开始讨论通用人工智能什么时候会到来。坦率讲当时大家对AGI是缺乏认识的，但我在思考什么样的研究可以导致AGI。

我们需要回答很多问题，例如，什么时候AGI会来，AGI会怎么来，我们要如何防御，如何让AGI变得更好等。那时候大家都知道了AGI是什么，但不知道怎么做。对应AGI我创造了两个词：ANI狭义人工智能和ABI广义人工智能。右边就是我当时的PPT原版。

通向AGI的必经之路是ABI，即广义人工智能。从学术上我给出了严格的定义：自监督、端对端、从判别式走向生成式。

回头来看，2022年ChatGPT出现的时候基本上实现了这三个要素，也就说2022年底开始我们已经进入了ABI的时代。但2016年未能预测出大模型的一些要素，例如模型的涌现能力。站在2024年的节点上，如果要做同样的思考讨论，那么接下来，AGI应该是一种怎样的达成路径，这是我们所有研究者和从业者都必须思考的问题。

这里提供一个我们的思考视角：实现AGI的路径应该是二维的，而非一维的。回看发展历史，在2016、2017年以前，人工智能在专业能力上拥有非常迅猛的进展。从“深蓝”到“AlphaGo”，人工智能因一次次击败“地表最强人类”而成为新闻的主体。但当时的巨大挑战在于，这些模型不具备泛化能力，只能在专有的任务上表现突出。在2017年Transformer提出以后，我们看到的是大模型在泛化能力上的“狂飙”。但大模型当前的另一个挑战是，在专业能力的进展上极其缓慢。同时带来的能源消耗、数据消耗、资源消耗均在让人思考，这条路径是通向AGI的有效路径吗？

Sam Altman曾提到，GPT-4的专业能力，大概相当于10%-15%的专业人士，即使到未来的GPT-5，预期将会提高四到五个点，也就是说将用指数级的能源消耗增长换来缓慢的专业能力提升。

在这里我们想提出一个判断：人工智能AGI落地会有一个高价值区域，同时要求模型兼备很强的泛化能力和足够的专业性。这个区域离原点最近的位置，我们把它叫做通专融合的“价值引爆点”。根据对历史生产力提升的分析，我们认为处在这个点的大模型，在专业能力上应超过90%的专业人类，同时具备强泛化能力，即ABI的能力。谁先进入高价值区域，即意味着谁的能力更强，拥有更多的场景和数据飞轮，并因此更早拥有自我进化迭代的能力。

强泛化之上的专业能力是AI皇冠上的明珠：通专融合新范式

强泛化之上的专业能力是AI皇冠上的明珠，通专融合的发展新范式。瞄准构建一个既具有泛化性又具备专业能力的AI系统，这样的系统能够更高效、更好地适应和解决现实世界中的复杂问题。实现这一目标需要一个完整的技术体系，它包含三层重点工作：

基础模型层：我们专注于更高效地构建通用泛化能力，尤其是其高阶能力，如数理、因果推理等。通过高质量数据的清洗和合成，研发高性能训练框架、高效的模型架构。一部分这样的原始创新体现在我们的书生·浦语大语言模型、书生·万象多模态模型等基础模型，并在数学和推理等高阶能力上实现了突破。但我们还有很多工作要做。

融合协同层：这一层负责将泛化性和专业性有效地结合起来。我们采用多路线协同的算法和技术，构建比肩人类优秀水平的专业能力。我们的原创工作包括高密度监督信号的生成、复杂任务规划，以及新的架构来实现系统1（即快速、直觉反应的系统）和系统2（慢速、逻辑分析的系统）之间的交互。通过这些技术，AI能够在复杂环境中做出决策，将复杂任务分解为更易管理的子任务，制定行动计划，并有效地协调多个智能体，以实现群体智能的涌现。

自主进化与交互层：在这一层，我们强调AI的自主探索和反馈闭环的重要性。AI系统需要能够在真实或仿真世界中自主地收集数据、学习并适应环境。通过与环境的交互，AI能够获得反馈，这些反馈对于其自我进化至关重要。自主进化与交互层使AI能够进行具身自主学习，最终对世界模型有更深刻的理解并与之交互，完成开放世界任务。

接下来，我分别介绍在这个框架下的几项前沿进展。

更高效地构建通用基础模型

为更高效地构建通用基础模型，实验室在并行训练及软硬适配协同、高效数据处理、新型架构及推理增强等方面进行了一系列原创的探索。

例如，在长序列并行训练方面，我们实现了性能突破，较国际知名的框架Megatron高达4倍。我们研发的大模型训练系统，基于真实训练需求不断沉淀技术能力，已连续两年获得计算机系统顶会ASPLOS杰出论文奖及最佳论文奖。

在基础模型方面，通过稀缺数据的合成与增广，实验室最新的大语言模型书生·浦语2.5，实现了综合性能比肩开源大模型参数的性能。

多模态大模型书生·万象，通过渐进式对齐、向量链接等创新技术，构建以更少算力资源训练高性能大模型的道路。以260亿参数，达到了在关键评测中比肩GPT-4的水平。

模型通用泛化能力与专业能力融合

围绕构造通用模型的高阶专业能力，我介绍两项代表性成果。

首先，是关于大模型专业推理能力。最近大家可能看到过这个新闻：“AI参加高考，数学全不及格”。这些AI考生里面，也包含了我们的书生·浦语，它在其中拿到了数学的最高分75分。这要得益于我们的开源数学模型，它沉淀了密集过程监督、模型辅助的思维链校验、多轮强化自训练、文本推理和代码解释器联合迭代等一系列技术，具备了良好的自然语言推理、代码解题及形式化数学语言性能，所以能以200亿参数在高考数学上超过GPT-4o，我们不但效果最好，而且参数体量最小、能源消耗最低。

第二项是关于新的系统架构，我们原创提出模拟人脑的系统1与系统2架构来实现通专融合。大家知道系统1是人脑的快决策，反映的是长期训练下的专业能力；系统2是慢系统，体现的是深度思考下的泛化能力。我们今年的这篇CVPR论文通过设计系统1与系统2的协同模式，提出了交互式持续学习新概念，让通用模型与专业模型能互相学习，通过通专融合来更高效、更专业地解决问题。同一个架构在图像识别、专业文本生成方面都获得了很好的效果。

具身自主探索与世界模型

具身自主探索是实现通专融合的有效手段，也是理解物理世界的AGI的必经之路。但具身智能绝不仅仅是大模型加机器人的应用，而是物理世界的反馈需要及时进化大模型。我们光靠看书或看视频，永远学不会游泳，你得亲身扎到水里才能学会。大模型得通过机器人，扎进现实世界，才能真正理解物理世界。

为帮助建立世界模型，我们构建了“软硬虚实”一体的机器人训练场——“浦源·桃源”，同时攻关具身智能的“大脑”与“小脑”。“浦源·桃源”是首个城市级的具身智能数字训练场，构建了集场景数据、工具链、具身模型评测三位一体的开源具身智能研究平台。作为大模型与机器人的连接层，涵盖89种功能性场景、10万+高质量可交互数据，有望解决领域内数据匮乏、评测困难的问题。

在大脑方面，我们通过具身智能体自身状态认知、复杂任务分解分配、底层技能协同控制三方面创新，首次实现了大模型驱动的无人机、机械臂、机器狗三种异构智能体协同。在小脑方面，我们通过GPU高性能并行仿真和强化学习，可以高效实现机器人在真实世界里快速学习，并完成高难度动作。我们发现，单卡1小时的训练就能实现真实世界380天的训练效果。

无人驾驶可以理解为一个具身智能体。我们提出了开源且通用的自动驾驶视频预测模型GenAD，类似于自动驾驶领域的“SORA”，能够根据一张照片输入，生成后续较高质量、连续、多样化、符合物理世界规律的未来世界预测，并可泛化到任意场景，被多种驾驶行为操控。

通专融合实践：科学发现

对于科学发现领域，通专融合无疑也有着巨大的潜在价值。

2023年初，Nature曾发表过一篇封面文章，展示了对科研论文发展现状的悲观态度，指出“科学进步正在‘降速’”。文章认为，近年来科研论文数量激增，但没有颠覆性创新。因为科学本身的发展规律便是不断深入，每个学科形成了信息茧房，不同学科之间壁垒增加。对于顶尖科学家来说，即使穷尽一生也没有办法掌握一个学科所有的知识。这就启发我们需要新的科研组织方式来适配学科信息茧房，这也需要科研工作者与时俱进，采用AI工具赋能科研、加速创新。

由于大模型内部压缩着世界知识，同时具备不确定性生成的特性，因此有可能帮助我们打破不同学科领域知识茧房，进行创新式探索。我们认为大模型的不确定性和幻觉生成，并不总是它的缺陷，而是它的一个特点。合理利用这种特点，通过人机协同有助于促进科研创新。

事实上，就人类科学家而言，通过“做梦”找到研究思路的例子也不胜其数，最典型的就是，德国有机化学家奥古斯特·凯库勒梦见衔尾蛇，进而发现苯环结构。

我们探讨了大模型在生物医学领域的知识发现问题，针对最新的医学文献构建知识发现测试集，并对于最先进的大模型进行评测。我们发现大模型能够提出新的生物医学知识假设，并在最新的文献中得以验证。

这里给出一个我们发现新假设过程的简单示例：我们将已有的背景知识输入到2023年1月发布的大模型，并让大模型生成可能的假设。大模型提出的假设中，第一条假设是背景已知信息，还不是新的知识；但是第二条假设是之前文献中所没有的。两个月后，这条假设在2023年3月发表的论文中得到了验证。

这只是一个非常简单的例子，但已经显示出大模型具有很大的潜力，可以促进科研知识发现，并且能够提出新的有价值的未知假设。

通过通专融合，AI不只可以提出科学假设，还可以掌握科学知识、分析实验结果、预测科学现象。进而在反思的基础上，提升AI提出科学假设的能力。

在掌握科学知识方面，我们基于大语言基座模型能力进行专项能力强化，分别在化学和育种两个方向构建了首个开源大模型——书生·化学和书生·丰登；

在分析实验结果方面，我们研发的晶体结构解析算法AI4XRD具备专家级的准确率，并将解析时间从小时级降低到秒级；

在预测科学现象方面，我们训练并持续迭代了风乌气象大模型，在全球中期气象预报上具有当前世界领先的时间和空间分辨率；

在提出科学假设方面，我们提出“人在环路大模型多智能体与工具协同”概念框架，对于科学假设的链路进行升级。构建了AI分析师、AI工程师、AI科学家和AI批判家多种角色，接入工具调用能力来协同提出新的假设。

下一代AI for Science

为什么提出一个好问题在科研中如此重要？早在1900年，德国数学家大卫·希尔伯特（David Hilbert）提出了著名的“23个问题”，引领了数学很多子领域数百年的发展。

在科学上，提出一个好问题往往比解决问题更重要。

希尔伯特还有一句名言，这也是他的墓志铭：“We must know. We will know.”我们必须知道。我们终将知道。

今天，我们踏上通专融合的路线，探索通用人工智能AGI的未来，展望下一代的AI for Science，更可以从这句话中汲取灵感和激励。

对于可信AGI的未来，正如我今天上午在全体大会的演讲，我们的态度是坚定而积极的：We must be there. We will be there！我们必须达成，我们终将抵达。

我今天站在这里也非常感慨，想起了去年汤晓鸥老师在WAIC大会上提到我们原创的成果、我们年轻的科学家，提到了我们的书生大模型。正是我们实验室一群有创造力的年轻科学家，让我们坚信：We must be there and we will be there！

接下来我们的年轻科学家们将逐一上台，他们将介绍他们出色的工作，好比刚刚开场视频里面说的，通过我们的工作让书生AI成为人类的好Intern和好帮手。

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

InternVL

MinerU

LMDeploy

InternLM

OpenCompass

XTuner

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

周伯文：通专融合是通往AGI的战略路径

来源：上海人工智能实验室｜2024-07-04

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

InternVL

MinerU

LMDeploy

InternLM

OpenCompass

XTuner

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

周伯文：通专融合是通往AGI的战略路径

来源： 上海人工智能实验室｜2024-07-04

来源：上海人工智能实验室｜2024-07-04