强化学习方法PRIME，实现模型“模仿学习”到“探索学习”范式转换 | 通专融合探索新进展

来源：书生Intern｜ 2025-01-10

上海人工智能实验室致力于通过“通专融合”路径探索开放、可控、可信的通用人工智能（AGI），实验室联合团队近期提出的结合过程奖励的强化学习方法PRIME（Process Reinforcement through IMplicit REwards），解决了通专融合路径中从“数据驱动的模仿”到“探索驱动的学习”范式转换的关键问题。同时，实验室团队在业界较早探索仅使用大规模强化学习方法，提升大模型进阶推理能力的研究。

强化学习是连接已有智能体（大模型）和现实世界（世界模型，具身智能）的桥梁，以及将世界反馈内化为模型智能的路径，将在下一代人工智能的发展中起到重要作用。PRIME 算法创新性地将隐式过程奖励与强化学习结合，解决了大模型强化学习的奖励稀疏问题，有望推动大模型复杂推理能力的进一步提升。

项目详情：https://curvy-check-498.notion.site/Process-Reinforcement-through-Implicit-Rewards-15f4fcb9c42180f1b498cc9b2eaf896f

代码链接：https://github.com/PRIME-RL/PRIME
OpenAI o1和o3模型的发布证明了强化学习能够让大模型拥有像人一样的快速迭代试错、深度思考的高阶推理能力，在基于模仿学习的Scaling Law逐渐受到质疑的今天，基于探索的强化学习有望带来新的Scaling Law。

近日，上海人工智能实验室与清华大学等联合团队提出一种新的结合过程奖励的强化学习方法——PRIME。基于该方法，研究人员不依赖任何蒸馏数据和模仿学习，短时间、低成本训练出的7B模型Eurus-2-7B-PRIME，数学能力即超过GPT-4o、Llama-3.1-70B。

具体而言，研究人员利用开源的7B数学模型作为基座，训练出了新模型Eurus-2-7B-PRIME，并在美国IMO选拔考试AIME 2024上的准确率达到26.7%，大幅超越GPT-4o，Llama3.1-70B和Qwen2.5-Math-7B-Instruct，且仅使用了原模型1/10的数据。其中，强化学习方法PRIME为模型带来了16.7%的能力提升，超越已知的开源方案。未来，基于PRIME方法和更强的基座模型，将有望进一步提升大模型复杂推理能力。

微信图片_20250121142247.png

Eurus-2-7B-PRIME在各数学评测集中成绩与其他模型对比

微信图片_20250121142426.png

PRIME方法介绍

为了在可控的成本下构建大规模的高质量多模态偏好数据，研究人员提出了一条高效的数据构建管线。具体而言，研究人员将数据按照是否有明确的标准答案划分为两类：

长久以来，开源社区严重依赖数据驱动的模仿学习来增强模型推理能力，但这种方法的局限也显而易见——更强的推理能力需要更高质量的数据，但高质量数据总是稀缺，使得模仿和蒸馏难以持续。

虽然OpenAI o1和o3的成功证明了强化学习有着更高的上限，但强化学习有着两个关键挑战：（1）如何获得精准且可扩展的密集奖励；（2）如何设计可以充分利用这些奖励的强化学习算法。

PRIME算法从隐式过程奖励（implicit process reward）的思想出发解决这两个问题。隐式过程奖励模型可以仅在输出奖励模型（outcome reward model, ORM）的数据，即答案的最终对错上进行训练，而隐式地建模过程奖励，最终自动训练出一个过程奖励模型，这整个过程都有严格的理论保证。

详细推导见：https://huggingface.co/papers/2412.01981

基于隐式过程奖励模型的性质，研究人员指出将其应用于强化学习有三大优势：