探索通用模型专业化路径，以融合训练实现奥赛级科学推理突破

探索通用模型专业化路径，以融合训练实现奥赛级科学推理突破 | 通专融合新进展

来源：上海人工智能实验室｜ 2026-05-20

近日，上海人工智能实验室（上海AI实验室）联合团队提出了一种面向奥赛级科学推理的通专融合训练方案，基于30B-A3B模型构建了科学推理模型SU-01，在不调用外部工具、不执行代码、不依赖专用符号求解器的纯自然语言推理条件下，实现了数学、物理双领域奥赛金牌级表现。

在第66届国际数学奥林匹克竞赛（IMO 2025）和2026年美国数学奥林匹克竞赛（USAMO 2026）评测中，模型均取得35分，超过金牌线。其中，在USAMO 2026第三题拿下满分，该题人类选手平均分仅0.01分，最高分不足5分。在2024、2025年国际物理奥林匹克竞赛（IPhO）评测中，模型得分均超过金牌线。

这一表现正是通专融合理念的有力验证：奥赛级科学推理能力不必完全依赖超大规模模型，也不必为数学、物理等学科分别搭建繁琐的专用系统，通过统一的训练目标、奖励设计和“生成-验证-修正”推理机制，一般尺寸模型也可以在数学证明、物理推导等高难任务中形成可复用的专家级推理能力。

该方案思路与上海人工智能实验室主任、首席科学家周伯文在第四十届人工智能协会年会（AAAI 2026）上提出的“可深度专业化通用模型”路径高度吻合。

论文链接：https://arxiv.org/abs/2605.13301
开源链接：https://github.com/Simplified-Reasoning/SU-01

IMO-Bench所含ProofBench结果。SU-01在直接生成时取得57.6%，经推理阶段扩展提升至70.2%，显著超越同尺寸模型，并接近Gemini 3.1 Pro Thinking等强闭源模型

通专融合的后训练闭环

奥林匹克竞赛题是检验AI长程推理能力的"硬核"考场。与只需给出最终答案的普通数学题不同，IMO、USAMO这类赛事要求选手在冗长的解题链条中，持续管理假设、推导引理、串联中间结论，最终提交一份能经得起严格评分的完整证明。

这项研究的关键设定是纯自然语言推理：模型不调用外部计算工具，不执行代码，也不依赖额外符号求解系统。从提出解题思路、展开证明、检查漏洞到修正论证，全部由模型独立完成。

这种“裸考”状态下，模型展现的不仅是计算能力，更是一种从通用推理能力中生长出的专精化科学推理能力——这正是通专融合要回答的核心问题：如何让通用模型在特定领域获得专家级的深度？

传统思路往往为数学、物理等学科分别设计专用管线、专用奖励和专用求解模块。而这项工作的突破在于：将不同领域共同需要的证明构造、结果验证和错误修正，抽象为同一套可复用的训练-推理闭环。

上海AI实验室的SU-01基于30B-A3B这一“一般尺寸”架构，通过三层递进实现能力专精化：

第一步：行为塑造。用约33.8万条高质量轨迹进行反向困惑度课程监督微调，让通用模型学习如何组织证明、检查假设和修复漏洞——将"严谨证明"的行为范式安装到模型中。

第二步：能力强化。通过200步两阶段强化学习，第一阶段提升直接求解能力，第二阶段引入证明级奖励模型，让模型不仅"答对"，更学会给出严谨、完整、可检查的推理过程。

第三步：推理扩展。在解决奥赛难题时，启动多轮“生成-验证-修正”循环。训练阶段学习到的自验证和自修正行为，为推理阶段的长程证明搜索提供基础。

这一“先塑造行为，再扩展能力”的闭环，正是通专融合在训练-推理协同层面的具体实践。

奥赛金牌：通专融合的硬核验证

结果验证了这套方法的有效性。在ProofBench证明质量评测上，SU-01直接生成取得57.6%，经推理扩展后提升至70.2%，显著超越同尺寸模型，并接近主流前沿模型（例如Gemini-3.1-Pro）的表现。

更具说服力的是其长程推理能力：在USAMO 2026的解题轨迹中，模型单次生成证明的中位长度达10.6万词元，修正阶段长达8.3万词元。这意味着，这个30B量级的通用模型，能够持续进行超过10万词元量级的有效推理，将长程计算全部用于构建逻辑、定位漏洞和完善论证。

USAMO 2026推理阶段扩展流程中不同动作的生成长度分布

上海AI实验室在2024年提出通专融合技术架构——『智者』SAGE，包括基础模型、融合协同与探索进化三个层次，旨在弥合广泛泛化与深度专精鸿沟。该方案体现了融合协同层的核心机制：动态协调直觉式“快思考”与逻辑性“慢思考”，通过精确奖励与智能体自进化，决定何时泛化、何时专精。

在比赛式评测中，SU-01展现出金牌水平：

IMO 2025和USAMO 2026均取得35分，达到金牌线；
IPhO 2024/2025得分超过金牌线。

物理奥林匹克竞赛评测结果，SU-01展现出金牌水平（IPhO 2024、2025的金牌线分别为20.8分、19.7分）

尤其在USAMO 2026上，模型取得35分。该届比赛人类选手平均分仅8.59分，中位数6分；其中P3题平均分低至0.01分，无人拿到5分以上。SU-01在“地狱难度”题目中取得最高分，证明其推理能力并非依靠简单题目堆砌，而是具备了与顶尖人类选手同台竞技、攻克超高难度证明问题的实力。

USAMO 2026人类选手得分统计与分题难度分布（图源：互联网）

除数学奥赛外，报告还将AMO-Bench、FrontierScience等纳入评测范围。结果显示，同一套证明搜索、验证和修正机制，可以迁移到物理建模和更广泛科学推理任务，体现出跨学科复用价值——这正是通专融合相比垂直领域定制系统的核心优势。

科学发现是对智能的终极考验，也是通专融合的验证舞台。当AI能够像科学家一样进行严谨、长程且可自我验证的思考时，就离AGI for Science更近了一步。

SU-01训练与推理流程，以一般尺寸30B-A3B推理主干为基础，依次经过监督微调、两阶段强化学习和推理阶段扩展，使模型形成证明搜索、自我验证和多轮修正能力

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

InternVL

MinerU

LMDeploy

InternLM

OpenCompass

XTuner

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

探索通用模型专业化路径，以融合训练实现奥赛级科学推理突破 | 通专融合新进展

来源：上海人工智能实验室｜ 2026-05-20