原文摘要
700 步 RL 训练,大幅提升小模型数学推理能力
进一步信息揣测
- RL训练的关键在于数据与超参数的定制化:POLARIS团队发现,RL训练效果的核心并非通用配方,而是需要根据待训练模型的能力动态调整数据难度和超参数(如学习率、奖励函数权重),这与公开文献中强调的“通用RL框架”形成反差。
- 700步短训练周期的秘密:通常RL训练需数千步,但团队通过动态难度调整(初期用简单样本稳定模型,后期逐步引入高难度样本)和针对性奖励设计(如数学推理中分步奖励的精细校准),大幅缩短训练周期,避免过拟合。
- 小模型超越大模型的隐藏条件:实验中的“小模型”性能提升依赖于特定数据筛选(如DeepScaleR-40K中过滤掉超出4B模型能力上限的样本)和闭源数据的影子训练(可能间接利用了大模型的合成数据或蒸馏信号,但未在开源部分明示)。
- 消费级显卡部署的代价:虽然POLARIS-4B支持消费级显卡,但实际需牺牲batch size或精度(如FP16混合精度),且推理速度可能低于官方宣传,需手动优化内核(如FlashAttention)才能达到理想效果。
- 开源策略的商业意图:字节跳动选择全开源(代码/数据/模型),实为抢占小模型RL训练标准,通过社区反馈反哺其闭源大模型(如豆包大模型)的RLHF技术,同时规避开源竞品(如Meta)的专利壁垒。
- RLHF领域的“黑箱”共识:论文中未提及但业内周知的潜规则——RL训练效果严重依赖人工调参经验(如奖励函数的温度参数需反复试错),而公开代码通常不包含最优参数组合,需付费咨询或内部合作获取。
- 数学推理提升的局限性:AIME测试的高分可能通过过拟合特定题型(如几何证明题占比超30%)实现,实际泛化能力需警惕,尤其在其他领域(如物理推理)可能表现骤降。