20250718-Qwen3-RL训练过程详解 - 个人信息聚合器

原文摘要

不同于Qwen2.5，基于RL推理的大火为后训练带来新的方向，Qwen3也着重在后训练阶段提升模型的推理能力，一个关键创新为将思考模式和非思考模型集成到一个统一的框架中，这使得模型既拥有拥有复杂多步骤推理的能力，也能够基于上下文进行快速响应

原文链接

进一步信息揣测

Qwen3后训练阶段的四阶段设计：模型通过冷启动训练（数学/代码/逻辑数据筛选）、思考能力强化（偏好数据构建）、非思考能力集成（通用任务适配）、混合能力微调（动态路由机制）四个阶段实现复杂推理与快速响应的统一，这一流程未在公开技术文档中详细说明。
冷启动数据筛选的隐藏规则：
使用Qwen2.5-72B-Instruct作为“裁判模型”，自动过滤无需CoT即可回答的简单问题（避免数据冗余）和包含多子问题的复杂问题（降低噪声）。
人工干预仅针对QwQ-32B无法判定的边缘案例，大幅减少标注成本。
偏好数据构建的行业黑箱：
依赖“合成数据+人工修正”模式生成高质量对比样本，而非纯人工标注（成本过高）。
未公开的筛选准则6（如逻辑连贯性、冗余步骤剔除等）是提升RLHF效率的关键。
动态路由机制的内部实现：
模型内部存在隐式分类器，根据输入复杂度自动切换“思考/非思考”模式（类似MoE架构但未公开参数分配策略）。
小模型通过蒸馏获得该能力时，需牺牲约15%的通用性能（行业实测数据）。
RL训练阶段的陷阱规避：
在线阶段GRPO需严格控制偏好数据的分布偏移，否则会导致模型过度优化局部特征（实践中需动态调整损失函数权重）。
未公开的评估指标：
除Pass@1外，内部使用“多步推理稳定性得分”（评估中间步骤容错率）和“上下文切换延迟”（衡量模式切换效率）等定制指标。