20250716-万字长文小作坊的强化之路

原文摘要

“遇事不决上强化”的风气也没有年初那么夸张了。或多或少，大家都陆续回归到sft和rl混合使用的传统路线了。既然强化的浮夸风已经过去大半，我们不妨平心静气的看下小作坊的强化之路。

“遇事不决上强化”的行业泡沫已破：年初业界盲目推崇强化学习（RL）的风气已消退，实际验证后多数团队回归到监督微调（SFT）与RL混合的传统路线，说明RL的泛用性曾被高估，需结合场景谨慎选择。
小作坊RL实践的资源限制：非头部团队（如非DeepSeek、Qwen等）缺乏豪华配置（如GPU集群、标注团队、顶级模型权限），RL目标更偏向技术认知积累而非技术壁垒突破，资源分配需极度务实。
RL应用分层真相：
头部团队（如大厂核心组）追求泛化能力和技术壁垒；
中小团队仅将RL作为技术栈补充或跟风工具；
学术爱好者更关注论文产出而非实际落地。
小作坊经验的价值被低估：其技术报告更接地气（资源消耗合理、可复现性强），且常透露真实踩坑细节（如数据清洗、奖励函数设计），而头部团队报告可能隐藏关键工程技巧或美化结果。
RL技术栈的隐性成本：标注团队、Infra基建、模型调用额度等隐性资源门槛，实际限制了RL在中小团队的可行性，需优先解决基础数据问题。
行业跟风陷阱：RL的“浮夸风”导致部分团队盲目投入，后因效果或资源问题被迫回调，反映技术选型需避免舆论驱动。