20250718-Qwen3-RL训练过程详解

原文摘要

不同于Qwen2.5,基于RL推理的大火为后训练带来新的方向,Qwen3也着重在后训练阶段提升模型的推理能力,一个关键创新为将思考模式和非思考模型集成到一个统一的框架中,这使得模型既拥有拥有复杂多步骤推理的能力,也能够基于上下文进行快速响应

原文链接

进一步信息揣测

  • Qwen3后训练阶段的四阶段设计:模型通过冷启动训练(数学/代码/逻辑数据筛选)、思考能力强化(偏好数据构建)、非思考能力集成(通用任务适配)、混合能力微调(动态路由机制)四个阶段实现复杂推理与快速响应的统一,这一流程未在公开技术文档中详细说明。
  • 冷启动数据筛选的隐藏规则
  • 使用Qwen2.5-72B-Instruct作为“裁判模型”,自动过滤无需CoT即可回答的简单问题(避免数据冗余)和包含多子问题的复杂问题(降低噪声)。
  • 人工干预仅针对QwQ-32B无法判定的边缘案例,大幅减少标注成本。
  • 偏好数据构建的行业黑箱
  • 依赖“合成数据+人工修正”模式生成高质量对比样本,而非纯人工标注(成本过高)。
  • 未公开的筛选准则6(如逻辑连贯性、冗余步骤剔除等)是提升RLHF效率的关键。
  • 动态路由机制的内部实现
  • 模型内部存在隐式分类器,根据输入复杂度自动切换“思考/非思考”模式(类似MoE架构但未公开参数分配策略)。
  • 小模型通过蒸馏获得该能力时,需牺牲约15%的通用性能(行业实测数据)。
  • RL训练阶段的陷阱规避
  • 在线阶段GRPO需严格控制偏好数据的分布偏移,否则会导致模型过度优化局部特征(实践中需动态调整损失函数权重)。
  • 未公开的评估指标
  • 除Pass@1外,内部使用“多步推理稳定性得分”(评估中间步骤容错率)和“上下文切换延迟”(衡量模式切换效率)等定制指标。