20250731-DeepSeek-GRPO重要性权重设计错误?详解Qwen3新强化学习算法GSPO

原文摘要

GSPO在MoE模型的RL训练上解决了稳定性问题,从而不必单独设计复杂的trick来维持稳定,简化了RL架构

原文链接

进一步信息揣测

  • GRPO在大型语言模型中的稳定性缺陷:GRPO的重要性权重设计存在根本性错误,尤其在处理next-token时容易引入高方差噪声,导致训练崩溃。这一问题的严重性在长文本响应和裁剪机制下被放大,但通常不会在公开文档中详细讨论。
  • GSPO的核心改进:GSPO通过将token级重要性权重改为sequence级权重,并与reward定义对齐(从sequence维度计算梯度),显著提升了MoE模型RL训练的稳定性。这种技术细节通常需要深入论文或与作者交流才能获取。
  • RL训练中的隐藏陷阱
  • Off-policy问题的实际影响:尽管PPO/GRPO的clip机制被宣传为能缓解off-policy问题,但实际在大模型训练中,mini-batch切分导致的off-policy效应仍会通过错误的重要性权重放大噪声。
  • 裁剪机制的副作用:裁剪虽能防止过度off-policy样本干扰,但会掩盖GRPO权重设计的底层问题,导致工程师误以为稳定性问题已解决。
  • 工业界未公开的实践
  • 传统RL架构需要复杂trick(如动态调整裁剪阈值、额外正则化)来维持稳定,而GSPO通过算法层改进简化了这一过程,这类优化经验通常仅通过行业内部交流传播。
  • MoE模型的RL训练稳定性问题曾被归因于模型结构,但实际主因是GRPO的权重设计,这一认知需通过实际踩坑或与领域专家合作才能明确。
  • 关键技术细节
  • 序列级梯度计算:GSPO的梯度计算与reward同维度(sequence而非token),减少了噪声传播路径,这一设计思路在公开教程中极少提及。
  • 噪声来源分析:GRPO的token级权重会因长响应累积噪声,而GSPO的组处理(grouping)直接切断了这一传播链,此类优化逻辑通常隐含在论文实验部分。