科研动态

Dynamics

首页 >  科研动态 > 新闻  >  详情

强化学习范式OREAL:超越蒸馏,推动轻中量级模型突破推理“三重门”困局

来源:书生Intern

近日,上海人工智能实验室(上海AI实验室)发布基于结果奖励的强化学习新范式OREAL,无需蒸馏超大参数规模模型,实现轻中量级(7B/32B)模型推理能力再提升。

在数学推理方面,长期以来,大模型面临稀疏奖励困境、局部正确陷阱和规模依赖魔咒"三重门"困局。上海AI实验室联合团队重新聚焦推理任务,设计出以正确样本模仿学习、错误样本偏好学习为核心的强化学习范式。实验结果表明,以Qwen2.5-32B-Base为基座模型,仅通过微调和基于结果反馈的强化学习,在不蒸馏超大模型的情况下,即实现在MATH-500数据集上的SOTA性能。

项目链接:https://github.com/InternLM/OREAL

论文地址:https://arxiv.org/abs/2502.06781

RL 训练数据链接:https://huggingface.co/datasets/internlm/OREAL-RL-Prompts

系列模型地址:https://huggingface.co/collections/internlm/oreal-67aaccf5a8192c1ba3cff018

微信图片_20250219133353.png

从Qwen2.5-32B-Base出发,基于OREAL,仅通过微调和基于结果反馈的强化学习,在不蒸馏超大模型(如DeepSeek-R1)情况下,实现在MATH-500数据集上的SOTA领先性能


当前大模型数学推理任务普遍面临"三重门"困局:

  • 稀疏奖励困境:最终答案对错的二元反馈,使复杂推理的优化变得困难;

  • 局部正确陷阱:长思维链中部分正确步骤反而可能误导模型学习;

  • 规模依赖魔咒:传统蒸馏方法迫使研究者陷入"参数规模军备竞赛"。

因此,研究团队重新审视了当前基于结果奖励的强化学习算法,经过严格的理论推导与证明,重新设计了一个新的结果奖励强化学习算法,并在这个过程中得出了三点重要结论:

  • 对于正样本:在二元反馈环境下,通过最佳轨迹采样(BoN)的行为克隆即可学习最优策略;

  • 对于负样本:需要使用奖励重塑来维护策略优化目标的一致性;

  • 对于长序列:不同的序列部分对结果的贡献不同,因此需要更细粒度的奖励分配函数,这个函数可以通过结果奖励习得。

换言之,通过对正确样本模仿学习,错误样本偏好学习,关键步骤重点学习,无需依赖超大规模的模型(例如DeepSeek-R1)进行蒸馏,仅通过强化学习即可达到惊人的效果。此外,研究团队还对不同起点模型进行了强化学习训练对比和分析,发现强化学习的起点模型和训练数据分布对最终的模型效果同样重要。因此,研究团队将RL训练的数据、起点与最终模型完整开源,推动行业内公平比较和进一步研究。


从头设计结果奖励强化学习

数学推理如何更进一步?

针对数学推理任务中强化学习面临的稀疏奖励和局部正确难题,团队通过理论创新实现针对性的算法改进,首先论证“为什么使用强化学习方法更好”。

正负样本奖励重塑,解决稀疏奖励困境

在数学推理任务的采样流程中,研究团队认为,在二元反馈机制下,采样任意数量包含正确答案的BoN(Best-of-N)设置,其正确轨迹的分布具有一致性特征。这一发现表明,通过直接行为克隆(Behavior Cloning)采样得到的正确轨迹,已经构成了正样本训练中的最优设置。在对正样本做模仿学习的基础上,团队提出直接惩罚负样本会导致梯度偏差问题,对负样本的训练原则应当是维护优化梯度形式与学习BoN分布一致。通过深入分析正负样本的训练梯度,研究者们提出了基于平均准确率p的奖励重塑因子来维护上述一致性,为GRPO等算法的改进提供了理论依据。这种设置使模型既能有效吸收成功经验,又能精确识别关键错误边界,对训练性能有明显帮助。

微信图片_20250219133406.png

结果奖励“因果溯源”,跳出局部正确陷阱

针对复杂的长推理链问题,OREAL创新性地设计了token重要性估计器。通过构建序列累计形式的奖励函数,将结果奖励逆向分解到每个推理步骤(见token-level RM热力图)。此方法能够精确定位核心错误步骤,在训练时实现更精细的梯度更新,显著提升了模型在长序列任务中的表现。

 

微信图片_20250219133413.png

OREAL 框架

OREAL聚焦三项核心:在正确样本上模仿学习、在错误样本上偏好学习、对关键步骤做重点学习。

 

微信图片_20250219142444.png

通过合理的分析和实践,一步步将强化学习性能推到最佳水平。

微信图片_20250219142449.png

强化学习超越蒸馏

摆脱规模依赖魔咒

研究团队在7B和32B两个规模的模型上仅使用4000条高质量训练样本进行了训练和测试,验证OREAL的实际效用。

在7B量级上,Oreal-7B在MATH-500上取得了91.0的pass@1准确率,首次通过强化学习而非蒸馏方法达到了该性能水平,超越了更大参数量的模型。

此外,将OREAL应用于DeepSeek-r1-Distill-Qwen-7B后,得到的新模型OREAL-DSR1-Distill-Qwen-7B在MATH-500上取得了94.0的pass@1精度,创下了7B模型的记录。

对于32B模型,Oreal-32B在MATH-500上也达到了95.0的分数,实现32B模型的新SOTA。

 

微信图片_20250219142452.png

基座、数据、算法协同

成就强大性能

研究团队同时认为,在强化学习方法之外,另外两个关键因素对提升数学推理性能同样至关重要:

  • 强大的起点模型是强化学习方法有效激发模型潜在能力的前提;

  • 在强化阶段使用的数据也必须在质量、难度、数量和多样性方面都得到充分保证,高质量的数据集能够让模型通过面对广泛的挑战和学习机会,充分发挥其潜力。

在多个基座模型中,大部分评测性能都会在强化学习后有所提升,也会出现持平(OREAL-32B在AIME2025-I)或者性能下降 (相比于DSR1-Distill-Qwen-7B在AIME2024)。研究认为,这些情况的出现可能与训练语料的质量、难度和数量等方面准备的不够充分有关,这也给未来的研究留下了空间。

微信图片_20250219142455.png