OpenAI o1和o3模型的发布证明了强化学习能够让大模型拥有像人一样的快速迭代试错、深度思考的高阶推理能力,在基于模仿学习的Scaling Law逐渐受到质疑的今天,基于探索的强化学习有望带来新的Scaling Law。
近日,上海人工智能实验室与清华大学等联合团队提出一种新的结合过程奖励的强化学习方法——PRIME。基于该方法,研究人员不依赖任何蒸馏数据和模仿学习,短时间、低成本训练出的7B模型Eurus-2-7B-PRIME,数学能力即超过GPT-4o、Llama-3.1-70B。
具体而言,研究人员利用开源的7B数学模型作为基座,训练出了新模型Eurus-2-7B-PRIME,并在美国IMO选拔考试AIME 2024上的准确率达到26.7%,大幅超越GPT-4o,Llama3.1-70B和Qwen2.5-Math-7B-Instruct,且仅使用了原模型1/10的数据。其中,强化学习方法PRIME为模型带来了16.7%的能力提升,超越已知的开源方案。未来,基于PRIME方法和更强的基座模型,将有望进一步提升大模型复杂推理能力。
Eurus-2-7B-PRIME在各数学评测集中成绩与其他模型对比
PRIME方法介绍
为了在可控的成本下构建大规模的高质量多模态偏好数据,研究人员提出了一条高效的数据构建管线。具体而言,研究人员将数据按照是否有明确的标准答案划分为两类:
长久以来,开源社区严重依赖数据驱动的模仿学习来增强模型推理能力,但这种方法的局限也显而易见——更强的推理能力需要更高质量的数据,但高质量数据总是稀缺,使得模仿和蒸馏难以持续。
虽然OpenAI o1和o3的成功证明了强化学习有着更高的上限,但强化学习有着两个关键挑战:(1)如何获得精准且可扩展的密集奖励;(2)如何设计可以充分利用这些奖励的强化学习算法。
PRIME算法从隐式过程奖励(implicit process reward)的思想出发解决这两个问题。隐式过程奖励模型可以仅在输出奖励模型(outcome reward model, ORM)的数据,即答案的最终对错上进行训练,而隐式地建模过程奖励,最终自动训练出一个过程奖励模型,这整个过程都有严格的理论保证。
详细推导见:https://huggingface.co/papers/2412.01981
基于隐式过程奖励模型的性质,研究人员指出将其应用于强化学习有三大优势:
过程奖励:隐式过程奖励模型能够为每个 token 提供价值估计,在提供过程奖励的同时无需训练额外的价值模型(value model)。
可扩展性:隐式过程奖励模型只需结果标签即可在线更新。所以,我们可以结合策略模型采样与结果验证器来直接更新PRM,有效缓解分布偏移与可扩展性问题。
简洁性:隐式过程奖励模型本质上就是一种语言模型。在实践中,研究人员发现可以直接用初始的策略模型初始化PRM。
隐式过程奖励解决了PRM在大模型强化学习中怎么用,怎么训,怎么扩展的三大问题,甚至不需要训练额外的奖励模型就可以开始强化学习,易用性和可扩展性极佳。
具体的PRIME算法流程如下图所示,作为一种在线强化学习算法,能够将每个token的过程奖励无缝应用于强化学习流程中。
实验结果
研究人员详细比较了PRIME算法和基线方法(如下图所示)。相比于仅用结果监督,PRIME有着2.5倍的采样效率提升,在下游任务上也有着显著提升。
研究人员还验证了PRM在线更新的重要性,可以看到,在线的PRM更新显著优于固定不更新的PRM(如下图所示),这也证明了PRIME算法设计和合理性。
此外,研究人员还额外收集数据,基于Qwen2.5-Math-Instruct训练了SOTA水平的EurusPRM,能够在Best-of-N采样中达到开源领先水平。
经典题型推理过程演示
研究人员详细比较了PRIME算法和基线方法。相比于仅用结果监督,PRIME有着2.5倍的采样效率提升,在下游任务上也有着显著提升。
问题1(AIME 2024试题)
回答
问题2:9.11和9.9哪个更大?(此前测试模型热门问题)
回答