20250731-DeepSeek-GRPO重要性权重设计错误？详解Qwen3新强化学习算法GSPO

原文摘要

GSPO在MoE模型的RL训练上解决了稳定性问题，从而不必单独设计复杂的trick来维持稳定，简化了RL架构

原文链接

进一步信息揣测

GRPO在大型语言模型中的稳定性缺陷：GRPO的重要性权重设计存在根本性错误，尤其在处理next-token时容易引入高方差噪声，导致训练崩溃。这一问题的严重性在长文本响应和裁剪机制下被放大，但通常不会在公开文档中详细讨论。
GSPO的核心改进：GSPO通过将token级重要性权重改为sequence级权重，并与reward定义对齐（从sequence维度计算梯度），显著提升了MoE模型RL训练的稳定性。这种技术细节通常需要深入论文或与作者交流才能获取。
RL训练中的隐藏陷阱：
Off-policy问题的实际影响：尽管PPO/GRPO的clip机制被宣传为能缓解off-policy问题，但实际在大模型训练中，mini-batch切分导致的off-policy效应仍会通过错误的重要性权重放大噪声。
裁剪机制的副作用：裁剪虽能防止过度off-policy样本干扰，但会掩盖GRPO权重设计的底层问题，导致工程师误以为稳定性问题已解决。
工业界未公开的实践：
传统RL架构需要复杂trick（如动态调整裁剪阈值、额外正则化）来维持稳定，而GSPO通过算法层改进简化了这一过程，这类优化经验通常仅通过行业内部交流传播。
MoE模型的RL训练稳定性问题曾被归因于模型结构，但实际主因是GRPO的权重设计，这一认知需通过实际踩坑或与领域专家合作才能明确。
关键技术细节：
序列级梯度计算：GSPO的梯度计算与reward同维度（sequence而非token），减少了噪声传播路径，这一设计思路在公开教程中极少提及。
噪声来源分析：GRPO的token级权重会因长响应累积噪声，而GSPO的组处理（grouping）直接切断了这一传播链，此类优化逻辑通常隐含在论文实验部分。