原文摘要
在人类最后一次考试中拿下 26.6%,位列全球第一。
进一步信息揣测
- 强化学习在业界的真实应用门槛:尽管Kimi和DeepSeek公开强调强化学习的泛化能力(“任何领域可用”),但实际落地需满足“可定义环境与奖励”的硬性条件,这可能导致非结构化领域(如创意、情感交互)的落地困难,需额外设计复杂奖励函数。
- 模型迭代周期内幕:头部AI公司从技术验证到产品化需3-6个月,但实际周期可能因数据清洗、算力调度等隐性成本延长,且强化学习训练存在极高试错成本(如Kimi从8.6%到26.9%的优化过程)。
- 深度研究的商业化策略:OpenAI将深度研究功能设为高溢价服务(200美元/100次),暗示其算力消耗极大或为早期用户筛选手段,而Kimi选择内测可能意在积累垂直领域数据壁垒。
- HLE考试的行业权重:HLE成绩被用作模型能力核心指标,但未公开提及的是其题目可能更偏向“可量化评估领域”(如数学、科学),对人文社科等模糊领域覆盖不足,导致成绩片面性。
- 强化学习的隐性瓶颈:Kimi与OpenAI的成绩提升(26.6%-26.9%)显示强化学习存在边际效益递减,接近30%后可能需要突破性算法或数据革新,业内私下讨论的“30%天花板”未被公开承认。
- Agent PMF的真相:深度研究被称为“Agent首个PMF”,但实际落地依赖企业用户(如咨询、投研),个人用户高频使用率低,反映Agent技术仍处于B端变现主导阶段。
- 数据获取的灰色地带:HLE由全球专家贡献,但未说明是否涉及版权或付费数据采购,头部公司可能通过非公开渠道获取高质量训练数据(如学术论文数据库合作)。