物理奥赛摘金,上海AI实验室开源物理推理模型系列 | 通专融合新进展

物理奥赛摘金,上海AI实验室开源物理推理模型系列 | 通专融合新进展

来源:上海人工智能实验室| 2025-11-05

近日,上海人工智能实验室(上海AI实验室)开源“通专融合”新进展——P1物理推理模型系列,在通用模型的基础上,P1通过大规模、多阶段强化学习重点升级了物理专业能力。其中,P1-235B-A22B在2025年国际物理奥林匹克大赛(IPhO)拿下金牌,成为首个也是唯一获得金牌的开源模型;在覆盖2024-2025年全球13场顶级物理竞赛的HiPhO基准测试中,与Gemini-2.5-Pro并列奖牌榜第一。

同时,团队提出的协同进化多智能体系统PhysicsMinions,在IPhO 2025及HiPhO基准测试的综合得分上双双问鼎。通过推动模型进行自我验证与反思迭代,P1持续提升了复杂物理问题的推理质量和鲁棒性,展现了“模型+系统”框架在应对复杂科学问题的卓越潜力。

通专融合是通往AGI的战略路径。2025 WAIC期间,上海AI实验室将通专融合技术路线升级为“SAGE”(Synergistic Architecture for Generalized Expertise)技术架构,持续提升通用大模型的专业能力。

·    Project Page: https://prime-rl.github.io/P1

·    Github: https://github.com/PRIME-RL/P1

 

638985541914140000.jpg

国际物理奥赛摘金,

为解决科学发现等难题奠定基础

物理推理是AI理解与塑造现实世界的核心能力。国际物理奥林匹克(IPhO)等顶尖赛事,以其对复杂推理和深度物理理解的高标准,成为检验物理智能对现实认知能力的重要标尺。

P1在IPhO 2025的表现情况如下:

·    P1-235B-A22B得分为21.2分(满分30分),是首个也是唯一获得金牌的开源模型;在PhysicsMinions的加持下,该模型得分增长为23.2分,超越Gemini-2.5-Pro,在AI模型中名列第一。

·    P1-30B-A3B得分为18.5分,获得IPhO 2025银牌,突显了其在中等规模下的强大物理推理能力。

 

638985542476730000.png

P1在IPho 2025中的得分情况

以IPhO 2025的一道真题为例,对比P1与Gemini-2.5-Pro、GPT-5的解答情况。

638985542997730000.jpg

P1给出的4个答案均正确,且过程完全符合评分标准。

638985543503860000.png

Gemini-2.5-Pro给出了2个正确答案,推理过程存在不少错误。

638985548839110000.png

GPT-5的解答过程及最终答案均出现较多错误。

638985549240050000.png

为了准确评估物理奥赛的表现,研究团队构建了HiPhO(High School Physics Olympiad)基准测试,这是首个专注于最新物理奥赛、采用人类对齐评估的基准。

HiPhO涵盖了2024-2025年最新的13场奥林匹克级别的物理竞赛,包括IPhO、APhO、EuPhO等国际和区域赛事。评估时采用官方评分标准,对答案和过程进行细粒度评分,与人类评审严格对齐,确保得分准确。由此,每个模型的考试得分可直接与人类选手以及金银铜牌分数线进行比较。

 

638985549718810000.png

HiPhO基准测试概览,包含2024-2025年13场物理奥赛,覆盖国际和区域竞赛

P1在HiPhO基准测试中的表现情况如下:

·    P1-235B-A22B取得12金1银佳绩,与Gemini-2.5-Pro并列奖牌榜第一,金牌数超越了GPT-5、Grok-4等主流闭源模型;配备PhysicsMinions后,该模型性能大幅提升,得分增长为38.4分,排名第一,超越了Gemini-2.5-Pro(37.7)和 GPT-5(37.4)等顶尖闭源模型。

·    P1-30B-A3B获得8金4银1铜,在现有开源模型中排名第三,仅次于参数规模更大的Qwen3-235B-A22B-Thinking-2507和DeepSeek-R1,超越了GPTo4-mini 和Claude-4-Sonnet等闭源模型。

638985550500470000.png

P1在HiPhO基准测试上的得分情况

HiPhO的更多详情可参见以下链接:

论文:https://arxiv.org/abs/2509.07894

数据集:https://huggingface.co/datasets/SciYu/HiPhO

排行榜:https://phyarena.github.io/

P1在IPhO 2025、HiPhO基准测试中表现突出,说明模型已初步具备应对现实世界中复杂物理问题的潜力,这一突破为大模型进一步处理复杂推理任务,进而解决科学发现等难题奠定了基础。

除了强大的物理推理能力,科研团队发现P1在多个领域的能力也得到进一步提升。例如,相比于Qwen3-30B-A3B-Thinking-2507,P1-30B-A3B在数学、代码、STEM等基准测试上均取得显著优势,证明了其物理推理能力的强大泛化性。

638985551162750000.png

P1与Qwen3同等规模参数模型在多个基准测试上的得分对比



多阶段强化学习训练,

实现物理推理能力持续提升

P1在物理推理方面的卓越表现,离不开高质量数据和多阶段强化学习策略。

研究团队通过高效的提取和标注流程,构建了包含数千条奥赛级别题目的训练数据集。每条数据均具有完整的上下文信息、可验证答案以及标准解题过程,用于强化学习训练。

P1采用多阶段强化学习流程进行训练。为了实现稳定高效的训练,团队在每个阶段应用两项关键策略:

·    上下文窗口扩展: 随着训练的推进,逐步扩展模型最大生成长度,使模型能够探索更长的推理链。这种扩展提高了高复杂度问题的可解性,减少了因截断导致的错误。

·    通过率过滤: 在训练前,基于通过率统计对数据进行筛选,排除过于简单或过于困难的任务。

基于这种多阶段强化学习训练策略,P1实现了在通用模型的基础上物理推理能力长期、持续的提升。


PhysicsMinions:

多智能体系统加速物理推理能力跃迁

为了突破单一模型的性能极限,研究团队开发了PhysicsMinions,这是一个专为物理推理设计的协同进化多智能体系统。它由三个交互式模块组成,通过自我验证与反思迭代,实现了物理推理能力的跃升:

·    视觉模块(Visual Studio):观察和验证多模态问题,提取结构化的视觉信息(在P1模型实验中未使用视觉模块)。

·    逻辑模块(Logic Studio):生成初始解决方案,并通过自我改进和自我反思逐步改进解答。

·    审核模块(Review Studio):执行双阶段验证:物理验证器检查物理一致性(比如常数、单位);通用验证器检查逻辑、推理和计算。

638985552774450000.png

PhysicsMinions三个模块之间的交互流程

如果任一阶段验证失败,详细的错误报告会被发送回逻辑模块,进行反思修订解答。通过这种协同进化协作,PhysicsMinions持续提升大模型对复杂物理问题的推理质量和鲁棒性。实测数据显示,配备PhysicsMinions后,P1在IPhO 2025、HiPhO基准测试中的得分均更高。

相关论文:https://arxiv.org/abs/2509.24855

 


上海市徐汇区龙文路129号
国际传媒港L1楼

联系我们
comm@pjlab.org.cn