AGI for Science的六个前沿问题

AGI for Science的六个前沿问题

来源:上海人工智能实验室| 2025-09-30

人工智能(AI)正在重新定义科学研究的边界。它在科学领域的应用,正在引发一场前所未有的革命,不仅挑战着我们对科学问题的理解,还可能重塑未来的知识边界。

9月21日下午,在上海举行的2025浦江创新论坛(第十八届)人工智能赋能科学研究专题论坛上,上海人工智能实验室主任、首席科学家周伯文教授提出《AGI for Science 之六问》,提出了几个关键性问题:AI真的能突破一切科学难题吗?AI的预测能力是否全面超越现有计算方法?它能超越人类的认知极限,开辟出全新的科学疆域吗?

在他看来,“人们总是高估技术的短期变化,却低估其长期变革”。当前AI在通用问题求解和替代传统预测方法等方面可能被高估,但其在促进学科交叉融合、催生新科学领域以及协助人类推导和验证重大理论创新等方面的深远潜力却往往被低估。

“AI正在加速拓展知识边界,但科学探索的罗盘始终是人类的心灵、好奇心与价值观来指引”,周伯文提出:“把握被高估的当下,投身被低估的未来。预测未来最好的方法就是创造未来!”

 


以下为演讲全文:

各位来宾下午好!AI能力的飞速跃升,使得我们今天所讨论的话题,已经从AI for Science,跨越到AGI for Science阶段。对战略性问题的探索与思考,是我长期关注的课题,因此也想借此报告,与大家分享关于这个领域的一些根本性问题。

当一个领域变得炙手可热时,我们往往会想起一句老话:人们总是高估一项技术的短期影响,导致出现泡沫;但从长远来看,却又容易低估其革命性的潜力——这就是“阿玛拉定律”(Amara’s Law)。在AGI for Science领域里,是否也正陷入同样的认知偏差:对其短期变化高估,而对其长期变革影响低估?

我提出这些问题的初衷,是希望帮助年轻的研究者们更好地辨别,哪些科学问题值得从更长远的角度深入思考。

638948428723760000.png

第一问 边界之问:

所有科学问题是否都能被人工智能解决?

638948429095810000.png

我的第一个问题是:科学智能的边界在哪里?

AI for Science的能力范围究竟有多大?什么是AI能够解决的科学问题,什么又是它不能解决的?如果我们对这一点缺乏清晰的认知,就很容易陷入“AI万能”的误区。

这并非一个新问题。尽管AI for Science是一个新兴的技术领域,但类似的思辨早在百年前的数学界就已展开。当计算尚处于萌芽阶段时,数学家们就激烈争论,所有数学命题是否都能通过机械化方式解决。其中,大卫·希尔伯特和威廉·阿克曼提出的“数学可判定性问题(Entscheidungsproblem)”尤为著名:是否存在一种通用方法,能够在有限步骤内判定任意数学陈述的真假?然而,“哥德尔不完备定理”的出现,基本否定了这种可能性。十年后,计算机科学理论的重要奠基人阿隆佐·丘奇和艾伦·图灵从算法层面进一步证明,此种通用算法并不存在。让解决这一问题陷入“幻灭”。

有意思的是,吴文俊先生在上世纪70年代,开创了机器证明(或称“数学机械化”)这一领域,他创立的方法后被国际称为“吴方法”。以他名字命名的奖项被誉为“中国智能科技最高奖”。他将几何定理的证明转化为代数方程的处理。通过一系列高度创新的数学转化(如“三角化”),将复杂的几何关系表示为多项式方程,然后通过符号计算来判定定理是否成立。吴文俊先生证明了,初等几何以及一大类微分几何定理的证明可以完全机械化。这意味着,对于这些领域的定理,存在一个统一的算法,能够判断其真伪,在特定领域实现了这个梦想。

这段历史告诉我们,从大胆假设、到被证伪、再到新的突破,期间曲折的过程恰恰是科学发展的魅力所在。

今天我们面对AI for Science,亦应怀抱同样的思考:在大家纷纷投身这一领域的同时,是否认真追问过它的能力边界?“边界之问”可视为“AI for Science 的希尔伯特之问”。如果我们认同这是一个根本性问题,那么“AI for Science 的哥德尔定理”在哪?谁将成为破解这一难题的“图灵”和“丘奇”?谁又能提出属于我们这个时代的“吴方法”?

这是一个激动人心的时代,每一个问题都值得深入研究和讨论。


第二问 预测之问:

AI的预测能力是否全面超越现有计算方法

638948429648640000.png

第二问 预测之问:

AI的预测能力是否全面超越现有计算方法

第二个问题,我称之为“预测之问”。

什么是科学?科学的关键特征之一是,能否准确预测系统将要发生什么。但我们不应高估当前的大语言模型或数据驱动方法,认为它们能准确预测一切科学现象。以诺贝尔奖成果AlphaFold为例,它能够精确预测蛋白质三维结构,但我们仍难以通过模型深入理解蛋白质的折叠机制——预测的准确性并未带来认知上的新突破。

同样,对于复杂系统如三体问题,神经网络难以精准预测其长期的混沌行为。关键在于,当前的大模型训练方法仍受限于人类已有认知,我们“喂”给模型的数据本身已被人为约束。若不能突破原有认知框架,则仅依赖大模型难以真正精准揭示科学规律。

如何应对这一问题?在今年的世界人工智能大会上,我们将早先提出的“通专融合” AGI技术路径进一步细化为SAGE(Synergistic Architecture for Generalized Expertise,中文含义为“智者”),强调在基础模型、融合协同和探索进化等多个层面,融入物理世界的真实规律。在物理、历史与物质研究中,初始条件、边界约束与对称性等应作为人工智能求解空间的重要约束。


第三问 语言之问:

对于科学表征,如何超越自然语言?

638948429932330000.png

第三个问题是“语言之问”:我们如何超越自然语言,实现对科学更有效的表征?

自然语言是人类智能的极致体现、智慧的浓缩。当前的大型语言模型,本质上正是对人类自然语言的压缩模型,并由此催生了令人瞩目的智能涌现现象。然而,根本性问题在于:继续向前推进,自然语言是否足以表征所有的科学现象?

我认为答案很可能是否定的。这一点可以追溯到荷兰计算机科学家、1972年图灵奖得主埃德斯加·迪杰斯特拉(Edsger Dijkstra)很早前提出的观点:他对使用自然语言进行编程持怀疑态度。当然,以今天的AI技术来看,自然语言编程已不再是不可逾越的障碍——AI在理解和生成代码方面表现越来越强。最近的突破表明AI编程能力已在奥林匹克竞赛中匹敌人类。

但迪杰斯特拉思想的深刻之处在于,他揭示了为什么自然语言本身是不够的。他指出,古希腊数学长期依赖口头表达与图形辅助,导致思维发展在一定阶段陷入停滞,直至符号系统的引入才带来转机;阿拉伯“代数”在采用阿拉伯数字后一度蓬勃发展,但在回归修辞导向的表达方式后,发展再度减缓;而现代科学文明能够在欧洲迅速传播与深化,很大程度上得益于韦达、笛卡尔、莱布尼茨等学者所推动的数学形式化革命——正是通过建立严谨符号体系并引入精确的数学符号,才实现了对科学知识的清晰、系统且可推演的表征。

这引发了更深层的思考:科学所描述的物理世界早在人类诞生之前就已存在,科学自有其内在的规律,我们如何能够假定自然语言,且不说涵盖所有科学内容,足以完全捕捉自然界的本质行为?从表达的角度来看,自然语言的诞生远远晚于世界本质的诞生,它是否能够精确表征自然界的运行方式?我认为答案是否定的。

其次,从理解方式来看,自然语言无疑有助于人类理解和传播科学知识,我们的教科书、师徒传授都依赖自然语言。但这种理解是否最精确?是否足以支撑人工智能实现更好的泛化?精确的科学规律是否一定能以被人类直观理解的方式呈现?我认为答案也大概率也是否定的。

正因如此,我认为,未来的AI for Science应当迈向AGI for Science,这不仅意味着能力需从狭义AI提升至AGI(通用人工智能),也意味着我们需要从纯粹依赖自然语言,走向自然语言与符号语言等多种表示形式的融合。如果我们对AI for Science怀有期待,那么更应寄望于AGI for Science。

因此,我们主张探索自然语言与形式化语言的结合。自然语言可视为人类对物理世界观察的主观投影,而形式化语言则可能更贴近自然世界最本质、最底层的规律。

所以,目前上海人工智能实验室也正基于自然语言与多模态表征,进一步开展对多尺度、多来源、异构数据的统一数字表征研究,其中的重点为加强形式化表征方法的探索与融合。


第四问 交叉之问:

AGI for Science不只在于AI与其他学科交叉,还能带来新的融合?

638948430801350000.png

第四个问题是“交叉之问”。

关于交叉的问题,我特别想与在座各位自然科学与社会科学研究者分享。

当我们谈论AI for Science时,是在谈论什么?很多研究者可能首先会想到,如何将人工智能应用于自己的学科中——这当然极具潜力。但我想强调的是,AI for Science最具魅力的地方,远不止于AI对单一学科的赋能,更在于它如何促进不同学科之间的深度融合,激发出新的交叉学科与多学科激励效应。不同科学领域能契合在一起这点并不明显,但考虑到自然界的底层结构,存在共通性也并不令人惊讶。要识别不同领域之间的共通之处,可以期待人工智能提供帮助,一旦了解了某个领域的模式,就可以期待发现另一个领域的对应关系。这才是AGI for Science所能带来的核心价值:它应不断启发、诱导乃至催生全新的学科方向——这正是充分发挥能力的关键所在。

历史上这样的例子并不少见。比如,沃伦·韦弗(Warren Weaver)在二十世纪三十年代就敏锐地意识到,生物学的未来在于与物理学、化学和数学的交叉融合。他将这一趋势称为“一股尚未积蓄力量的新浪潮”。从1933年起,他将洛克菲勒基金会年度预算的80%投入交叉科学研究。短短5年后,该领域已涌现大量原创突破。1938年,这一新兴领域正式命名为“分子生物学”。此后数十年间,这一认知指引了分子生物学领域多项革命性进展,为发现DNA双螺旋结构、现代遗传、生物技术等奠定了基石。

在当时,学科交叉仍依赖于个别人物的远见与某家机构的大力推动。但在今天的AGI时代,我们完全有可能借助通用人工智能,更系统、更高效地实现学科间的融合与洞察,而不再仅仅依赖“个人英雄式”的发现。这正是AGI for Science在“交叉之问”上的根本使命:其核心价值不在于AI与某一学科的简单结合,而在于AI成为多学科交叉融合的催化剂与加速器——这将帮助我们看见人类尚未看见的联系,构建人类尚未构建的科学范式。

上海人工智能实验室于今年初启动了“AI4S攀登者行动计划”,其核心目标正是打造能够驱动科学革命的工具平台——通过 AGI 实现跨学科的深度融合与颠覆性创新的系统性涌现。


第五问 验证之问:

如何判断AI有能力做出重大科学发现

638948432792890000.png

第五个问题:验证之问。

我们应如何判断AI有能力做出重大科学发现?

当前,我们对AI for Science抱有极高期望——不仅希望它辅助解题或进行数学模拟,更期待它实现真正意义上的重大科学突破。

自2022年以来,我持续思考一个思想实验,并将其确立为团队和学生的核心研究课题。实验的设定如下:假设我们开发出了一套卓越的AI for Science系统或大模型,那么应如何验证其科学发现能力?我的提议是:将该系统“送回”1905年(那一年爱因斯坦刚刚提出狭义相对论),限定该AI系统仅基于1905年之前的所有科学论文与已知观测结果,那么它能否自主推导出广义相对论?我认为,这是衡量AGI for Science能否实现终极突破的关键设问。

这一思想实验的本质,是追问科学突破的根本来源。广义相对论究竟是如何诞生的?科学研究的跃进究竟依赖什么?我曾在今年的中关村论坛也分享过这一观点:科学研究的核心并非仅靠工具提升局部效率,而在于对“研究者—研究工具—研究对象”三者关系的系统性重构与本质思考

以相对论为例:研究者爱因斯坦拥有非凡的物理直觉与思维洞察,尤其对等效原理具有深刻把握。据他回忆,某些具体对象(如坐在电车上看见钟楼时构想“若电车以光速行驶会如何”)激发了他通过思想实验推演出狭义相对论。然而,受限于当时未能掌握黎曼几何,爱因斯坦未能立即将狭义相对论推演至广义形式——直至引入“黎曼几何”。

因此,这一思想实验的关键并不在于AI系统读了多少论文,毕竟如今的大模型阅读海量文献已不足为奇,真正的差异化能力在于:能否将“黎曼几何”与狭义相对论相结合,从而推导出广义相对论?这对AI系统提出了更高要求:它必须对物理具备直觉般的推演能力、从实验现象(如水星轨道近日点的验证)中获得启发,并能跨学科融合数学与物理知识,从而实现真正的科学范式跃迁。

上述正是“验证之问”的意义。我们不能仅满足于宣称某个模型“达到了博士水平”,而应朝着远大的目标持续探索。尽管当前这一目标仍很遥远,但正如任何伟大事业都需要宏伟的愿景,这也应当成为AGI for Science坚定不移的方向。



第六问 新科学之问:

AGI将辅助更多学科发展“精确”视角?

638948433580510000.png

第六个问题:新科学之问。

当前,不少研究者正致力于推动AI for Social Science与AI for Engineering。我认为,这些方向与AI for Science并无本质区别,因为它们共同的核心,都是重构研究者、研究对象与研究工具三者之间的关系。上述五个问题——边界之问、预测之问、语言之问、交叉之问与验证之问——同样适用于社会科学与工程领域。

但我更想强调,AI的出现与能力提升,为社会科学与工程研究带来了颠覆性的新机遇。在艺术、历史、哲学等人文社科领域中,许多学科已发展得相当成熟,那么AI能否为社会科学研究者提供新的分析视角与更精确的度量工具?

科学的发展往往始于对精确的度量与推理的追求。例如在艺术领域,为什么众人皆认为,徐悲鸿的马寥寥数笔却神韵非凡?为什么留白成为中国艺术中的高级表达?这些审美判断背后是否存在可量化的美学原则?

我们曾使用西方主流闭源大模型对梵高和徐悲鸿的作品进行评分,结果发现前者得分很高,后者却非常低。这显示出模型受限于训练数据与价值观偏见,因而未能真正理解东方美学中的精妙表达。

为此,上海人工智能实验室与中国美术学院联合推出“书生·妙析”美学大模型,基于Intern-S1『书生』大模型Intern·Bootcamp大模型“加速训练营”,以可量化的方式,“教会”模型如何理解徐悲鸿笔下的马、如何鉴赏留白的意境。这一探索带来了新的启示:对于所有的社会科学,能否从非结构化的原始数据中,识别出具有研究价值的模式与特征?

另一方面,“可重复验证”是科学的关键标准,AI能否推动社会科学乃至工程实验,实现如自然科学般的可重复性?我们能否借助大规模、可重复的AI实验(类比自由落体、粒子对撞实验等),提供系统研究框架、激发创新视角?

638948433874020000.png

当然,必须明确指出:我们提出AGI for Science,并非要以AGI取代人类,而是强调人与AI的协同。科研是一项高层次的智力活动,其中蕴含了人类的生物多样性、个体体验以及深层的哲学与文化思考。AGI for Science必须以精细而审慎的方式推进,不能仅将AGI视为工具交付给科学家,而应构建以科学家为中心,人类与AGI高度协作的新范式。

人类科学家的珍贵品质更不能忽视:例如,阿基米德在外敌入侵的生死关头,保护的是未完成的证明,对科学的执着超越个体存亡;基于数学形式的优雅与内在和谐的科学直觉,更让麦克斯韦坚信并预言了电磁波的存在;费曼说“科学是伟大的娱乐”,许多人读过《别逗了费曼先生》,书中记录了许多旺盛好奇心的故事;特别值得一提的是,中国科学家屠呦呦,在经历200余种药物实验失败后选中青蒿,而针对青蒿这一种材料,也直至第191次实验,才提取出有效成分。这些坚韧美好的品质,是人类科学事业中不可替代的核心。

因此,我们认为真正的AGI for Science,应是以人类科学精神和智力为罗盘、以AGI为引擎的协同探索,绝不能本末倒置。

如果我们认同“预测未来最好的方式就是创造未来”,在这条迈向AGI for Science的路途上,浦江论坛“六问”为我们提供了一个思考的框架:既需清醒认识到当下可能被高估的能力边界、预测可靠性与语言表征的局限,也要关注那些被低估的远方——尤其是交叉学科的涌现、验证机制的建立和新科学范式的形成。

我们需要应统筹资源、做好整体规划,致力于AGI for Science的长远布局。我们不能简单地提“AI for 某学科”,而应前瞻那些尚未形成的新交叉领域。未来的突破,将来自于人类与AGI的共同探索,让科学变得更有趣、更富成果,也更具获得感。

 


上海市徐汇区龙文路129号
国际传媒港L1楼

联系我们
comm@pjlab.org.cn