20250706-沉寂良久之后，Kimi_放出深度研究_Agent

原文摘要

在人类最后一次考试中拿下 26.6%，位列全球第一。

原文链接

进一步信息揣测

强化学习在业界的真实应用门槛：尽管Kimi和DeepSeek公开强调强化学习的泛化能力（“任何领域可用”），但实际落地需满足“可定义环境与奖励”的硬性条件，这可能导致非结构化领域（如创意、情感交互）的落地困难，需额外设计复杂奖励函数。
模型迭代周期内幕：头部AI公司从技术验证到产品化需3-6个月，但实际周期可能因数据清洗、算力调度等隐性成本延长，且强化学习训练存在极高试错成本（如Kimi从8.6%到26.9%的优化过程）。
深度研究的商业化策略：OpenAI将深度研究功能设为高溢价服务（200美元/100次），暗示其算力消耗极大或为早期用户筛选手段，而Kimi选择内测可能意在积累垂直领域数据壁垒。
HLE考试的行业权重：HLE成绩被用作模型能力核心指标，但未公开提及的是其题目可能更偏向“可量化评估领域”（如数学、科学），对人文社科等模糊领域覆盖不足，导致成绩片面性。
强化学习的隐性瓶颈：Kimi与OpenAI的成绩提升（26.6%-26.9%）显示强化学习存在边际效益递减，接近30%后可能需要突破性算法或数据革新，业内私下讨论的“30%天花板”未被公开承认。
Agent PMF的真相：深度研究被称为“Agent首个PMF”，但实际落地依赖企业用户（如咨询、投研），个人用户高频使用率低，反映Agent技术仍处于B端变现主导阶段。
数据获取的灰色地带：HLE由全球专家贡献，但未说明是否涉及版权或付费数据采购，头部公司可能通过非公开渠道获取高质量训练数据（如学术论文数据库合作）。