大语言模型推理的强化学习现状(上)

今年，大模型领域持续涌现重要突破，GPT-4.5与Llama 4等旗舰级模型的密集发布本应掀起行业热潮，但其市场反响却意外平淡——这一看似矛盾的现象，正折射出大模型产业发展的深层变革，值得深入探究。

深究这一现象的根源，不难发现：GPT-4.5与Llama 4仍未跳出传统模型的框架，其训练过程中始终缺乏显式的强化学习推理机制——这使得它们在复杂任务的逻辑拆解与深度推导上难以突破瓶颈。

与之形成鲜明对比的是，xAI、Anthropic等竞争对手已率先在模型中植入更成熟的推理能力与交互功能。例如xAI的Grok与Anthropic的Claude，均在界面中为特定模型增设了 “思考”（或 “扩展思考”）按钮，允许用户主动触发显式推理模式——这种设计既让模型的逻辑链条更透明，也让用户能按需调控推理深度，从而在实用性上形成了差异化优势。

市场对GPT-4.5与Llama 4这类非推理型模型的平淡反馈，实则暗示着一个趋势：“仅通过扩大模型规模与数据量来提升性能的路径，正逐渐逼近其能力极限。”

不过，OpenAI最新发布的o3推理模型打破了这一认知——当算力投入更具战略性，尤其是针对推理任务定制强化学习方法时，模型性能仍有巨大的提升空间。（据OpenAI员工在近期透露，o3的训练算力消耗为o1的10倍。）

OpenAI livestream (https://openai.com/live/) on April 16, 2025

尽管推理能力并非解决所有问题的 “万能钥匙”，但截至目前，其确实可以持续提升模型在复杂任务中的准确性与解题能力。

由此不难预见，在未来大语言模型的开发流程中，专注于推理能力的后训练或将成为标准实践。

基于此，本文将探讨通过强化学习提升推理能力的最新进展。

本文聚焦用于开发改进推理模型的强化学习训练方法

鉴于文章篇幅较长，本文将分为上下两篇进行展示，以下为目录概览：

一、理解推理模型二、RLHF基础：起点溯源三、PPO简介：强化学习的主力算法四、强化学习算法：从PPO到GRPO五、强化学习奖励建模：从RLHF到RLVR六、DeepSeek-R1推理模型的训练方法七、前沿推理模型论文启示

理解推理模型

首先需明确推理的核心定义。简言之，推理是指通过逻辑推断过程提升大语言模型处理复杂任务的能力。

为进一步阐释其内涵，可将推理定义为：

“在大语言模型语境中，推理即模型生成最终答案前产出中间步骤的能力。这一过程通常称为思维链（CoT）推理 —— 模型通过显式生成结构化语句或计算序列，完整且透明地呈现结论的推导路径。”

大语言模型处理多步骤推理任务的简化示意图。模型不仅需回忆事实，还需组合多个中间推理步骤才能得出正确结论。根据具体实现方式，中间推理步骤可能向用户展示，也可能隐藏

如本节开篇所述，大语言模型的推理能力可通过两种方式进行提升。

1、直接优化模型架构，使其天生具备更强的逻辑推导和问题解决能力。这种方法往往涉及复杂的模型设计和大量的训练数据，旨在从根本上提升模型的推理潜能。

2、借助外部方法引导模型进行推理，如引入思维链（CoT）等策略，通过显式的中间步骤生成，帮助模型在处理复杂任务时逐步推导，直至得出正确结论。这种方法更注重于训练过程中的指导和优化，以期在现有模型基础上实现推理能力的显著提升。

接下来，我们深入探讨上述两种方法。

直接优化模型架构，通常意味着在模型设计时融入更多逻辑推导相关的机制。例如，可以在模型中增加专门用于处理逻辑推理的层或模块，这些层或模块能够识别并解析语句间的逻辑关系，从而更高效地生成中间推理步骤。此外，利用大规模的、包含复杂逻辑关系的训练数据进行模型训练，也是提升推理能力的重要手段。

这种方法虽然复杂且耗时，但一旦成功，将从根本上增强模型的推理潜能，使其在处理各类复杂任务时表现得更为出色。

而借助外部方法引导模型进行推理，则更加注重于训练过程中的灵活性和可操作性。通过引入思维链（CoT）等策略，可以在不改变模型基本架构的前提下，引导模型在处理复杂任务时进行逐步推导。

这种方法的关键在于如何设计有效的训练策略，使模型能够学会生成显式的中间推理步骤，并逐步逼近正确结论。为了实现这一目标，研究者们开发了一系列训练技术，如示例引导、提示工程等，以期在现有模型基础上实现推理能力的显著提升。

在探讨了提升推理能力的两种核心路径后，我们不难发现，无论是直接优化模型架构以增强原生推理潜能，还是借助外部策略引导模型生成中间推理步骤，其背后都离不开高效训练方法的支撑。

尤其是在通过外部引导（如思维链策略）提升推理能力时，如何让模型稳定掌握这类推理逻辑、并在复杂任务中持续复用，往往需要依赖更精细的训练机制——而强化学习（RL）正是其中关键的技术手段。

事实上，在大语言模型的训练体系中，强化学习早已在模型能力优化中扮演重要角色，其中基于人类反馈的强化学习（RLHF）更是传统模型对齐人类偏好的经典方法论。

由于本文后续讨论推理模型的专项强化学习优化时，会频繁涉及与RLHF相关的技术逻辑，因此，我们有必要先分析这一方法的基础原理，为深入理解推理模型的训练逻辑做好铺垫。

准确率可通过增加训练或测试阶段算力提升，其中测试算力等同于推理算力与推理规模扩展。来源：https://openai.com/index/learning-to-reason-with-llms/

RLHF基础：起点溯源

用于构建和改进推理模型的强化学习（RL）训练方法，在某种程度上与开发对齐传统大语言模型所采用的基于人类反馈的强化学习（RLHF）方法论密切相关。因此，在探讨基于强化学习的推理专项优化之前，将首先简要回顾RLHF的基本原理。

传统大语言模型的训练通常分为三个阶段：

1. 预训练2. 监督微调3. 对齐（通常通过RLHF）

RLHF作为大语言模型的原始对齐方法，现已成为行业标准开发流程。其最早在 InstructGPT论文中被提出，ChatGPT初代模型便采用了这一方案。

其核心目标是使大语言模型与人类偏好对齐。例如，针对同一提示生成的多个回答，RLHF能引导模型优先生成更符合用户偏好的类型（其也常用于安全微调，如防止敏感信息泄露、规避不适当表述等）。

RLHF流程以预训练模型的监督微调为起点（该步不涉及强化学习，仅作为必要前置准备），并通过近端策略优化（PPO）算法实现模型的进一步对齐（注：除PPO外还有其他算法，但PPO作为RLHF的原始算法，至今仍应用最广）。

为便于理解，可将RLHF流程拆解为三个核心步骤：

RLHF步骤1（前置）：预训练模型的监督微调（SFT）RLHF步骤2：创建奖励模型RLHF步骤3：通过近端策略优化（PPO）微调

其中步骤1为监督微调阶段，旨在为后续RLHF微调构建基础模型。

InstructGPT论文图示，https://arxiv.org/abs/2203.02155

在RLHF步骤1中，通过从数据库采样或人工构建提示词，由人类标注高质量回复，再基于此数据集以监督学习方式微调预训练基础模型。如前所述，这一步骤并不涉及强化学习，仅作为整个RLHF的前置准备。

在RLHF步骤2中，我们基于监督微调（SFT）所获得的模型构建奖励模型，具体流程如下图所示。

InstructGPT论文图示，https://arxiv.org/abs/2203.02155

如上图所示，针对每个提示，利用前一步的微调模型生成多个回复（例如四个），再由人工标注员按偏好对这些回复排序。尽管排序仍需耗时，但相较于第一步中人工撰写高质量回复来构建SFT数据集，这种排序工作更简便高效，能显著节省人力成本，毕竟排序回复比撰写回复更简便。

收集这些排序数据后，即可用于训练奖励模型——其核心作用是替代劳动密集型的人工排序，为后续优化阶段输出量化的奖励分数，从而支持大规模数据集的高效训练。

值得注意的是，奖励模型（RM）通常基于第一步的SFT模型改造而来：只需将原模型的输出层（即预测下一token的分类层）替换为单输出节点的回归层，即可完成从生成模型到奖励模型的转化。

RLHF步骤3为利用奖励模型（RM）对SFT模型进一步微调，具体如下图所示。

InstructGPT论文图示，https://arxiv.org/abs/2203.02155

在这一最终阶段，我们基于步骤2得到的奖励模型输出的分数，通过近端策略优化（PPO）算法更新SFT模型，实现模型的迭代优化。

PPO简介：强化学习的主流算法

如前所述，原始RLHF方法采用名为近端策略优化（PPO）的强化学习算法。

PPO的核心目标是提升策略训练的稳定性和效率。（在强化学习中，“策略”即指待训练模型；此处可直接理解为“策略=大语言模型”。）

PPO的核心思想之一是限制每次更新时策略的变动幅度：通过引入带裁剪的损失函数，避免模型因过度更新而导致训练失稳。

此外，PPO在损失函数中加入了KL散度惩罚项——通过对比当前策略（即训练中的模型）与原始SFT模型，确保更新幅度保持在合理范围内。毕竟，我们的目标是对模型进行偏好微调，而非彻底重新训练。

这正是“近端”在近端策略优化中的含义：算法在允许策略改进的同时，尽量使更新贴近现有模型。

为鼓励训练中的探索行为，PPO还添加了熵奖励项，促使输出更具多样性。下文将通过伪代码说明PPO的关键步骤。

RLHF中的关键术语说明。例如，PPO涉及多个模型，其中PPO是RLHF中使用的一种算法（而RLHF是最流行的LLM对齐方法之一）

为便于理解，可以做一个简单类比：假设你是一位经营小型送餐服务的厨师，需要通过尝试新食谱来提升顾客满意度——这一逻辑与PPO的运作原理如出一辙：依据顾客的反馈（相当于“奖励”）来调整食谱（相当于“策略”）。

1、计算新旧策略生成下一token的概率比：

ratio = new_policy_prob / old_policy_prob

简言之，这一步用于检验新、旧食谱的差异。

需要说明的是，这里的 “新策略概率” 并非指最终更新完成的策略，而是训练过程中的当前版本——按行业惯例仍称其为 “新策略”，即便处于实验阶段，也沿用这一称呼。

2、将该比例乘以行动优势值（称为优势）：

raw_score = ratio * advantage

此处为简化，可假设优势基于奖励信号计算：

advantage = actual_reward - expected_reward

用厨师类比来说，优势相当于新菜品的表现增量：

advantage = customer_rating - expected_rating

比如顾客给新菜品打9/10分，而过往平均得分为7/10，那么优势即为+2。

当然，上述解释是经过简化的。实际计算中还会涉及广义优势估计（GAE），不过受限于篇幅，这里暂不展开细述。

需要明确的是：预期奖励由 “评论家”（亦称 “价值模型”）计算，而实际奖励则由奖励模型输出。优势的计算正是基于这两个模型，且它们的规模通常与原始微调模型保持一致。

打个比方来说，评论家（或价值模型）如同上菜前先试菜的朋友，负责预判顾客可能给出的评分（也就是预期奖励）；而奖励模型则相当于最终给出真实反馈的顾客（也就是实际奖励）。

3、计算裁剪后分数：

若新策略变动过大（如比例>1.2或<0.8），则裁剪比例如下：

clipped_ratio = clamp（ratio, 0.8, 1.2）clipped_score = clipped_ratio * advantage

用厨师做菜来类比的话：如果一道新食谱得到了极高（或极低）的评价，厨师或许会想彻底翻新菜单，但这种做法风险其实很高——毕竟突然大幅调整可能让熟悉原有风格的顾客难以适应，因此需要限制当前食谱的变动幅度。（比如某道新菜恰好撞上了某位顾客嗜辣的偏好才拿到高分，并不代表这种口味能得到大多数人的认可。）

4、取原始分数与裁剪分数的较小值：

if advantage >= 0: final_score = min(raw_score, clipped_score)else: final_score = max(raw_score, clipped_score)

这种设计的核心逻辑源于谨慎原则：当优势为正时（即新行为更优），会限制奖励的力度——目的是避免过度依赖那些可能只是偶然出现的好结果；而当优势为负时（即新行为较差），则会限制惩罚的幅度——同理，除非明确证实存在系统性问题，否则不会因单次差评而反应过度。

简言之，优势为正时，取两者中的较小值以避免过度奖励；优势为负时，取两者中的较大值以避免过度惩罚。打个比方，这就像食谱试新时：若表现超预期，除非有足够证据证明是稳定优势，否则不会贸然加大奖励;若表现不佳，除非问题持续出现，否则也不会轻易施以重罚。

5、计算损失：

整个流程的最终优化目标，是最大化这一分数（实际训练中通过梯度下降翻转符号，转化为最小化问题）。此外，还需引入KL散度惩罚项（其中β为控制惩罚强度的超参数）。

loss = -final_score + β * KL(new_policy

大语言模型推理的强化学习现状(上)

QQ咨询

QQ：