20250712-OpenAI去年挖的坑填上了！奖励模型首现Scaling_Law，1.8B给70B巨兽上了一课

原文摘要

原文链接

进一步信息揣测

POLAR模型的对比学习范式：通过衡量模型回复与参考答案的「距离」来评分，这种方法减少了对海量人工标注数据的依赖，可能暗示传统奖励模型的数据标注成本高昂且效率低下。
小模型超越大模型的Scaling潜力：POLAR展示出小模型也能超越规模大数十倍的对手，这可能意味着当前行业过度依赖模型规模，而忽视了算法优化和训练方法的创新。
OpenAI的RFT技术内幕：强化微调（RFT）中打分器（Grader）的作用是关键，但未公开具体实现细节，可能涉及专有的评分算法或数据预处理技巧，这些是商业化竞争的核心。
奖励模型的瓶颈问题：文章提到奖励模型是「后训练效果的关键限制因素」，暗示当前RLHF（基于人类反馈的强化学习）流程中，奖励模型的性能直接制约了大模型的最终表现，但优化方法未完全公开。
行业对人工标注的隐性依赖：尽管POLAR减少了标注需求，但传统方法仍严重依赖人工标注，可能涉及标注质量不稳定、成本高或数据隐私问题，这些痛点通常不会在公开讨论中深入提及。
技术迭代的竞争压力：OpenAI在2024年12月提出RFT，而POLAR的快速跟进可能反映行业对「轻量化高效训练」的迫切需求，背后是算力成本和商业化落地的压力。
参考答案的潜在局限性：POLAR依赖参考答案评分，但未说明如何生成或选择这些答案，实际应用中可能存在参考答案偏差或覆盖不足的风险，需内部数据或领域知识弥补。