聚焦AGI4S前沿,以关键问题锚定科研攻坚点
来源:上海人工智能实验室| 2026-02-10
科学智能作为前沿领域,充满机遇,也面临一系列“被高估”和“被低估”的问题。围绕如何推动科学智能从AI for Science(AI4S)向AGI for Science(AGI4S)迭代,上海人工智能实验室提出边界之问、预测之问、语言之问、交叉之问、验证之问和新科学之问等“AGI4S六问”,旨在为行业提供一个思考框架:既需清醒认识到当下可能被高估的能力边界、预测可靠性与语言表征的局限,也要关注那些被低估的远方——尤其是交叉学科的涌现、验证机制的建立和新科学范式的形成。
近日,上海人工智能实验室以“追问边界、共探前沿”为题召开研讨会,实验室主任助理、领军科学家乔宇,复旦大学计算与智能创新学院教授肖仰华,清华大学智能产业研究院院长、教授刘洋,中国科学院自动化研究所研究员张家俊等数十位专家学者共聚一堂,针对当前科研布局中尚未形成共识但至关重要的方向性问题开展深入研讨,并在“AGI4S六问”的基础上进一步形成AGI4S前沿问题矩阵,以下呈现部分核心问题与关键结论。

01|边界之问
核心问题:哪些科学问题适合由AGI介入并有效求解?
表达能力决定智能能力上限。凡是能够被清晰语言化、符号化或结构化表达的任务,模型通常可以通过规模化学习与枚举式搜索实现求解。因此,表达体系的上限,基本构成智能能力的上限。
推理差异更多体现为效率差异。机器推理以系统遍历和概率计算为主,人类推理则依赖类比与跳跃式路径选择。AGI能力突破的关键不在“是否能推理”,而在“能否更高效地推理”。
工具与具身交互是突破表达瓶颈的重要路径。大量关键信息难以通过语言显式编码,需要通过实验工具、环境交互与具身感知获取。工具使用能力本质上是对表达空间的外延扩展。
规律发现依赖认知框架。在既定框架内的枚举与优化是AI的优势;提出全新框架的“从0到1”式创新仍主要依赖人类创造力。因此,具备清晰建模结构与评价标准的领域更适合率先实现AGI赋能。
核心问题:深度学习能否编码已知物理规律?如何实现?
数据层面,在数据构建阶段即融入物理先验。例如基于守恒律、对称性或已知约束条件进行数据合成与筛选,避免模型在物理上不成立的样本中学习到错误模式,从源头上提高数据分布与真实物理机制的一致性。
训练层面,在模型结构或目标函数中显式嵌入物理约束。包括在损失函数中引入对称性、不变性等结构性约束,或将物理规律转化为强化学习中的奖励机制,使模型在优化过程中逐步内化科学规律,而非仅依赖统计拟合。
后处理层面,在模型输出阶段引入理论规则进行一致性修正。通过对预测结果进行物理可行性校验与约束调整,构建“模型预测-规则校正”的闭环,提高结果在科学应用场景中的可信度与可解释性。
02|预测之问
核心问题:如何跨越相关性与因果性的边界,使模型具备类人的抽象与归纳能力?
相关性计算不等同于因果理解。当前大模型以概率拟合与相关性计算为核心机制,本质上缺乏内在目标驱动与解释框架。人类预测能力往往依赖于内置的认知结构与问题动机,而不仅是数据统计结果。如何为模型构建可持续的“目标函数”或内在驱动机制,是迈向因果推断的重要前提。
抽象与归纳是预测能力的关键环节。人类归纳既可以通过函数拟合实现,也可以通过分类体系(taxonomy)构建结构化知识框架。模型在模式归纳上具备优势,但“从0到1”的原创性归纳仍存在明显短板。未来需要探索归纳机制的形式化表达,例如信息熵压缩、结构简化或误差最小化等统一框架。
类比与结构迁移是高级预测能力的基础。人类通过类比、继承与结构重组形成解释框架,并通过筛选机制进行修正。若模型能够学习这种“结构迁移”能力,而不仅是参数迁移,则有望实现跨领域的创新预测能力。这是通向类人AGI的重要路径。
核心问题:世界模型能否真正学习到物理规律和知识?
世界模型可能提供新的预测范式。生成式世界模型更接近对现象整体结构的编码,而非对规则的显式表达。其优势在于高维连续空间中的动态模拟能力,可能捕捉到传统符号模型难以显式表达的结构关系。
现象建模与规律抽象需要融合路径。世界模型本质上重现现象,而科学预测最终需要抽象出可解释规律。将生成式世界模型与符号系统结合,构建“生成-对齐—抽象”的闭环机制,是提升预测深度的重要方向。
预测能力的提升依赖验证与反馈机制。仅有现象模拟不足以支撑科学预测,需要通过实验反馈、结构验证与跨场景泛化测试,对模型的预测结果进行持续校准。
03|语言之问
核心问题:是否存在统一的科学表征与模型架构,使多科学任务能够在同一框架下进行端到端训练?
统一表征并非简单模态拼接,而是表达能力的重构。图文融合在通用模型中已被验证,但科学场景中的模态复杂度更高。例如分子结构或连续动力学过程,若压缩为二维图像或符号表达,可能丢失关键信息。统一多模态表达在技术上是否可扩展至所有科学模态,仍有待进一步论证。
数据孤岛是统一建模的首要障碍。不同学科数据分散且结构差异巨大,二维、三维、时序、拓扑结构等数据形态并不等价。是否所有科学问题都适合纳入一个大一统模型框架?对于结构差异显著的任务,是否应采用分类型或分层建模方式,而非强行统一?这些问题成为讨论的重要分歧点。
网络结构应与问题结构匹配。不同学科数据在结构与语义上高度异构,彼此之间缺乏自然通路。是否可以通过中间表示或预处理模型,将抽象科学数据映射为可对齐的表达形式,从而打通数据孤岛?这是当前亟待解决的关键问题。
模型架构是否需要问题导向设计?Transformer在序列建模中优势明显,但对于无序系统或空间动力学问题是否仍然适用?不同任务是否需要差异化网络结构,或者通过模块化机制(如MoE)实现任务分流?这些问题仍有较大探索空间。
统一模型与分层范式如何取舍?
宏观变量与微观机制之间天然存在尺度差异。是否应构建分层协同体系,而非单一统一模型?追求“大一统架构”是否本身值得反思,也成为讨论延伸出的重要议题。
04|交叉之问
核心问题:AGI是否具备真正的跨学科抽象与迁移能力,而不仅是工具层面的复用?
跨学科迁移能否可能触及“共通机制”?跨学科应用的初级形态往往是常识迁移或工具复用,但更深层的问题在于,AGI是否能够识别不同学科复杂系统背后的共通作用机制,甚至发现尚未被统一认识的科学规律?不同学科之间是否存在潜在的因果依赖与共演路径?上述问题仍需进一步探讨。
多模态训练能否带来“科学GPT时刻”?在多个科学任务共同训练的条件下,模型是否可能涌现新的知识结构,而不仅仅是共享基础理解与推理能力?这一问题关系到多模态科学模型的真正价值边界。
跨学科能力可能体现在知识迁移与研究范式迁移双重路径。讨论指出,跨学科能力可能体现在两类迁移:一是相似知识或实验方法的跨领域迁移(如测量方法、设计准则);二是研究方式与方法论管线的迁移(理论分析、实验验证流程等)。模型是否能够主动提出跨领域假设,并由科学家进行验证,是关键检验标准。
迁移能力的实现机制仍有待探索。强化学习等机制在具备仿真环境的领域可能有效,但对于难以构建验证环境的科学问题,其适用性存在限制。是否需要更大规模的知识广度、结构化记忆机制或Agent化研究管线,仍处于开放讨论阶段。
05|验证之问
核心问题:模型是否真正理解科学规律,以及如何验证其发现的知识具有可靠性?
如何区分“模仿”与“理解”?现有模型在部分非常规或反事实任务上的表现提示,其能力可能存在对数据的记忆成分。如何区分统计拟合与规律理解,是科学智能发展的关键挑战。
如何推动模型走向“规律理解”?讨论围绕两条可能路径展开:引入多步推理与反思机制,使模型在推导过程中具备可检验的中间结构;在训练中嵌入知识约束或奖励机制,使模型内化科学规律。同时,模型参数中是否已经隐含数学与物理结构,以及如何从高维参数空间中抽取这些结构,仍是开放问题。
科学规律发现具有“双向路径”。人工智能发现科学规律具有双向路径:既可以自顶向下,在既有规律体系中推演新规律;也可以自底向上,从海量数据中归纳抽象公式。
如何构建验证机制?验证不仅涉及结果准确性,还包括推理链条的可复现性与可解释性。是否可以通过演绎测试(如从简单规律推出复杂规律)、概念删除实验或生成式仿真环境等方式进行低成本验证,仍需系统化设计。生成式世界模型可能为快速验证提供辅助环境,但其可靠性边界仍需进一步评估。
06|新科学之问
核心问题:AGI赋能科学的目标究竟是什么,以及其如何重塑科学研究的组织方式与决策逻辑?
AGI为更多学科发展提供的是预测精度,还是方法正确性或决策可用性?预测精度强调误差最小化,方法正确性强调可证伪与规范性,而决策可用性则要求系统能够在真实资源约束下明确下一步行动。跨学科研究的瓶颈往往不在于精度提升,而在于如何在有限预算内选择最有效的实验或仿真路径。因此,一旦以决策可用性为目标,就必须将因果约束、误差预算、复现机制与闭环优化转化为可工程化的系统能力。
有哪些具体的科学问题需要AGI赋能,以及如何对不同学科赋能?AGI 在数学、物理、化学及生命科学等领域的潜在价值,体现在跨越细分知识壁垒、整合不同分支间结构对应关系的能力。其优势不仅在于高维解空间中的大规模搜索,更在于在复杂问题中生成新的假设与路径建议。在实验科学中,AGI有望参与构建“模型-实验-反馈”的自动化闭环,加速材料筛选与系统优化进程。科学智能的定位正在从辅助计算工具,逐步走向参与科研决策过程的协作系统。
当前全球范围内有哪些可供参考的布局经验和技术路线?以DeepMind为例,科学智能的发展不仅是模型能力问题,更涉及问题选择、工程体系与协作结构。规则明确、目标清晰且能够通过计算验证的问题,往往更容易率先取得突破;在对正确率要求极高的领域,神经网络模型需要与符号计算或形式化验证体系协同运行。强化学习与仿真环境为决策型科研提供技术路径,但在难以完全验证的理论探索领域,AGI的角色边界与责任结构仍需审慎界定。跨学科团队协作与工程化能力,是推动这一体系落地的关键条件。
如何构建可信AGI4S,推动科学发现安全落地?
在深入讨论“AGI4S六问”的基础上,与会学者进而对如何构建可信AGI4S开展了探讨。
核心问题:在高风险、高价值的科学场景中,如何确保AGI系统的目标函数、生成能力与科研规范保持一致,并在全流程中实现可验证、可追溯与可约束的安全落地?
如何定义模型优化目标(如计算指标)以确保其能与科学领域的指标保持一致性?科学领域的评价指标往往不仅关乎性能,还涉及安全边界与潜在风险。问题不仅在于事后评估,更在于能否将湿实验反馈反向注入模型训练与推理过程,使安全规则成为可学习、可演化的内生机制。同时,构建面向科学发现的安全评测基准,并引入不确定性量化机制,是避免模型在高风险场景中失控的重要路径。
如何通过安全可信的技术手段,来打破各个研究所、科学家之间的数据壁垒?科学研究高度依赖数据,但现实中存在跨机构、跨团队的数据孤岛。如何在保障隐私与合规的前提下,通过安全计算、可控共享或技术协议,打破数据壁垒,是AGI4S实现规模化应用的关键问题。数据的多样性、真实性与代表性直接影响模型安全边界。
科学发现各环节分别有哪些隐患?科学发现并非单一预测问题,而是包含“假设生成-实验设计-数据分析-结论形成-重复验证”的完整链条。安全风险可能存在于每一个环节,例如错误假设的扩散、实验设计偏差、数据分析中的系统性误导等。因此,构建全链路安全监控机制,使关键决策节点可记录、可回溯、可外部检验,是实现可信科学智能的基础条件。
在科学研究这个高风险、高价值场景中,什么样的AGI才值得被信任?在科学研究这一高风险、高责任场景中,AGI的可信性不仅取决于预测准确度,更取决于其架构是否具备内生安全设计。除了数学与代码等高度形式化领域,是否可以在更多学科中引入形式化验证或“符号-神经”混合架构,使关键推理过程可验证、可解释,是重要探索方向。透明度与机制可解释性亦是基础要求,模型不仅要给出结果,还需能够说明其证据链条与推理路径。

