20250722-和戴雨森的_2025_AI_中场复盘:OpenAI_的_IMO_金牌、Kimi_K2_翻盘、Agen

原文摘要


「一个登月时刻?」


本期是「此话当真」与「晚点聊 LateTalk」的串台节目,真格基金合伙人戴雨森和晚点的曼祺聊了一期 2025 AI 中场复盘,以及刚刚发生的新鲜事。


这期节目分两次录制,一次是在上周,在 2025 年年中的复盘和展望时刻,我们聊了真格投资的月之暗面新鲜出炉的 K2,AI 应用普及这条大主线的变化,和近期热闹非凡的抢人大战。


一次是在今天(7 月 21 日)下午。我们补充聊了刚刚发生的新进展:OpenAI 在上周五(7 月 18 日)发布了 ChatGPT Agent,更重要的是,这个周末(7 月 19 日),OpenAI 又宣布用一个未公开的通用大语言模型,第一次达到了 IMO 国际奥赛金牌水准。这之前,只有 Google DeepMind 针对数学专门做优化的模型达到过银牌水平。


2 年半前,曾写下《通用人工智能的火花》的现 OpenAI 研究员 Sébastien Bubeck 形容,这(通用大语言模型拿下 IMO 金牌)最终可能会成为一个登月级别的进展。



已持续两年多的 AI 竞速没有放缓,模型能力与应用创新交替上升,而两者的进化速度,可能都在被低估。






OpenAI 拿下 IMO 金牌,又一个李世石时刻


01:06 OpenAI 新模型拿下 IMO 金牌:首个到这一水平的通用 LLM、强化学习也能处理难判别任务、Google 也做到了?


14:38 抢人大战后,Meta 谁都不服谁的情况可能更严重


16:31 ChatGPT Agent 不惊艳,但别低估它;「壳」的价值在于 context


再谈 AI 应用普及:最重要的、被高估的、被低估的


27:39 总体进展:Coding 和推理能力持续提升、Agent 形态有了初步共识、多模态更实用了


33:59 机器人进厂打螺丝的速度,被高估了;应用(壳)的价值、优秀团队的韧性、模型进展速度被低估了


40:53 从 All in AI 到外卖大战?


不同公司,走向各自的未来


42:37 DeepSeek R2,等待新基模


43:43 字节 Seed 组织的进一步分工:Edge、Focus、Base


46:39 K2,Kimi 的乔戈里峰


58:32 技术排位变化:Google is back、ChatGPT 更强化超级应用、Anthropic 也自己「造壳」


应用的生长


01:15:23 雇佣 AI——1个月 1000 美元的 AI 订阅费


01:23:19 Agent 的应用进展需要新的 L3 模型


01:30:22 在硅谷,对创业产品的像素级模仿为何较少发生


新的提问


01:35:35 持续好奇:如何衡量智能的边界?


01:38:00 灰犀牛:当个人有了大量生产力,怎么处理效率 vs 公平?


01:43:31 未来几个月想验证的悬念?——L3 模型如何到来


01:48:37 一款契合 AI 创业者的游戏《33 号远征队》



真格基金戴雨森:从「没必要付费」到「非用不可」,AI 正在冲击人类历史上最快的增长纪录


Manus 创始人手把手拆解:如何系统性打造 AI Agent 的上下文工程?


Manus 对谈 YouTube 联创陈士骏:两代创业公司的对话




图注:OpenAI 研究院、强化学习专家 Noam Brown 发 Twitter 提到,拿到 IMO 金牌的模型与 Multi Agent 有关。



图注:7月22日 OpenRouter 编程类目模型调用,K2 已从上周二发布第 4 天时的第 10 上升到第 5。



《此话当真》是一档由真格基金出品的泛商业类播客,真格基金投资团队将在此和各领域的领军人物一起分享最新热点和行业洞察。


真格基金创立于 2011 年,是国内最早的天使投资机构之一。自创立伊始,真格基金一直积极在人工智能、芯片与半导体、机器人与硬件、医疗健康、企业服务、新能源、跨境出海、消费生活等领域寻找最优秀的创业团队和引领时代的投资机会。


真格,你的创业第一站!



原文链接

进一步信息揣测

  • OpenAI的IMO金牌模型可能已突破通用LLM的数学推理瓶颈:通过未公开的强化学习技术处理复杂判别任务,暗示其方法论可能超越Google专门优化的数学模型(如DeepMind的银牌模型),但具体技术细节未披露。
  • Meta内部抢人大战加剧团队矛盾:高薪争夺AI人才导致内部派系对立,可能影响项目协作效率,这一动态通常不会在公开报告中提及。
  • ChatGPT Agent的“壳”价值被低估:其核心优势在于长期上下文记忆(context)而非即时功能,这可能是企业级应用的关键壁垒,但公开讨论多聚焦于表面功能。
  • AI应用落地速度的认知偏差
  • 被高估:机器人实体场景(如工厂流水线)的进展受硬件和安全性限制,实际落地慢于预期;
  • 被低估:模型迭代速度(如月之暗面K2)、优秀团队的快速适应能力(如从All in AI转向细分场景)。
  • OpenAI与Google的竞争策略差异:OpenAI倾向通用模型突破(如IMO金牌),而Google更专注垂直领域优化,两者技术路径的优劣尚未公开交锋。
  • 投资机构内幕视角:真格基金等风投已开始押注“AI应用壳”公司(如月之暗面),认为模型能力快速提升后,应用层会爆发,但未公开讨论具体标的筛选标准。
  • 人才市场暗流:AI顶尖研究者流向产业界(如OpenAI、Meta)导致学术机构空心化,部分高校实验室通过“联合培养”名义变相为企业输送人才,这一机制较少被媒体报道。
  • DeepSeek R2的潜在瓶颈:等待“新基模”可能暗指其当前技术依赖现有架构,突破性创新不足,需警惕同类竞品的代差风险。