探索通用模型专业化路径,以融合训练实现奥赛级科学推理突破 | 通专融合新进展

探索通用模型专业化路径,以融合训练实现奥赛级科学推理突破 | 通专融合新进展

来源:上海人工智能实验室| 2026-05-20

近日,上海人工智能实验室(上海AI实验室)联合团队提出了一种面向奥赛级科学推理的通专融合训练方案,基于30B-A3B模型构建了科学推理模型SU-01,在不调用外部工具、不执行代码、不依赖专用符号求解器的纯自然语言推理条件下,实现了数学、物理双领域奥赛金牌级表现。

在第66届国际数学奥林匹克竞赛(IMO 2025)和2026年美国数学奥林匹克竞赛(USAMO 2026)评测中,模型均取得35分,超过金牌线。其中,在USAMO 2026第三题拿下满分,该题人类选手平均分仅0.01分,最高分不足5分。在2024、2025年国际物理奥林匹克竞赛(IPhO)评测中,模型得分均超过金牌线。

这一表现正是通专融合理念的有力验证:奥赛级科学推理能力不必完全依赖超大规模模型,也不必为数学、物理等学科分别搭建繁琐的专用系统,通过统一的训练目标、奖励设计和“生成-验证-修正”推理机制,一般尺寸模型也可以在数学证明、物理推导等高难任务中形成可复用的专家级推理能力。

该方案思路与上海人工智能实验室主任、首席科学家周伯文在第四十届人工智能协会年会(AAAI 2026)上提出的“可深度专业化通用模型”路径高度吻合。

  • 论文链接:https://arxiv.org/abs/2605.13301

  • 开源链接:https://github.com/Simplified-Reasoning/SU-01

 

639148734753640000.png

IMO-Bench所含ProofBench结果。SU-01在直接生成时取得57.6%,经推理阶段扩展提升至70.2%,显著超越同尺寸模型,并接近Gemini 3.1 Pro Thinking等强闭源模型


通专融合的后训练闭环

奥林匹克竞赛题是检验AI长程推理能力的"硬核"考场。与只需给出最终答案的普通数学题不同,IMO、USAMO这类赛事要求选手在冗长的解题链条中,持续管理假设、推导引理、串联中间结论,最终提交一份能经得起严格评分的完整证明。

这项研究的关键设定是纯自然语言推理:模型不调用外部计算工具,不执行代码,也不依赖额外符号求解系统。从提出解题思路、展开证明、检查漏洞到修正论证,全部由模型独立完成。

这种“裸考”状态下,模型展现的不仅是计算能力,更是一种从通用推理能力中生长出的专精化科学推理能力——这正是通专融合要回答的核心问题:如何让通用模型在特定领域获得专家级的深度?

传统思路往往为数学、物理等学科分别设计专用管线、专用奖励和专用求解模块。而这项工作的突破在于:将不同领域共同需要的证明构造、结果验证和错误修正,抽象为同一套可复用的训练-推理闭环。

上海AI实验室的SU-01基于30B-A3B这一“一般尺寸”架构,通过三层递进实现能力专精化:

第一步:行为塑造。用约33.8万条高质量轨迹进行反向困惑度课程监督微调,让通用模型学习如何组织证明、检查假设和修复漏洞——将"严谨证明"的行为范式安装到模型中。

第二步:能力强化。通过200步两阶段强化学习,第一阶段提升直接求解能力,第二阶段引入证明级奖励模型,让模型不仅"答对",更学会给出严谨、完整、可检查的推理过程。

第三步:推理扩展。在解决奥赛难题时,启动多轮“生成-验证-修正”循环。训练阶段学习到的自验证和自修正行为,为推理阶段的长程证明搜索提供基础。

这一“先塑造行为,再扩展能力”的闭环,正是通专融合在训练-推理协同层面的具体实践。


奥赛金牌:通专融合的硬核验证

结果验证了这套方法的有效性。在ProofBench证明质量评测上,SU-01直接生成取得57.6%,经推理扩展后提升至70.2%,显著超越同尺寸模型,并接近主流前沿模型(例如Gemini-3.1-Pro)的表现。

更具说服力的是其长程推理能力:在USAMO 2026的解题轨迹中,模型单次生成证明的中位长度达10.6万词元,修正阶段长达8.3万词元。这意味着,这个30B量级的通用模型,能够持续进行超过10万词元量级的有效推理,将长程计算全部用于构建逻辑、定位漏洞和完善论证。

639148737551560000.png

USAMO 2026推理阶段扩展流程中不同动作的生成长度分布

上海AI实验室在2024年提出通专融合技术架构——『智者』SAGE,包括基础模型、融合协同与探索进化三个层次,旨在弥合广泛泛化与深度专精鸿沟。该方案体现了融合协同层的核心机制:动态协调直觉式“快思考”与逻辑性“慢思考”,通过精确奖励与智能体自进化,决定何时泛化、何时专精。

在比赛式评测中,SU-01展现出金牌水平:

  • IMO 2025和USAMO 2026均取得35分,达到金牌线;

  • IPhO 2024/2025得分超过金牌线。

639148738162800000.png

639148738413700000.png

物理奥林匹克竞赛评测结果,SU-01展现出金牌水平(IPhO 2024、2025的金牌线分别为20.8分、19.7分)

尤其在USAMO 2026上,模型取得35分。该届比赛人类选手平均分仅8.59分,中位数6分;其中P3题平均分低至0.01分,无人拿到5分以上。SU-01在“地狱难度”题目中取得最高分,证明其推理能力并非依靠简单题目堆砌,而是具备了与顶尖人类选手同台竞技、攻克超高难度证明问题的实力。

639148738854880000.png

USAMO 2026人类选手得分统计与分题难度分布(图源:互联网)

除数学奥赛外,报告还将AMO-Bench、FrontierScience等纳入评测范围。结果显示,同一套证明搜索、验证和修正机制,可以迁移到物理建模和更广泛科学推理任务,体现出跨学科复用价值——这正是通专融合相比垂直领域定制系统的核心优势。

科学发现是对智能的终极考验,也是通专融合的验证舞台。当AI能够像科学家一样进行严谨、长程且可自我验证的思考时,就离AGI for Science更近了一步。

639148739349700000.png

SU-01训练与推理流程,以一般尺寸30B-A3B推理主干为基础,依次经过监督微调、两阶段强化学习和推理阶段扩展,使模型形成证明搜索、自我验证和多轮修正能力

上海市徐汇区龙文路129号
国际传媒港L1楼

联系我们
comm@pjlab.org.cn