20250712-马斯克Grok-4碾压所有大模型!“比所有领域博士都聪明”,AIME25拿满分

原文摘要

已经布局多模态Agent和视频模型,代码模型马上发

原文链接

进一步信息揣测

  • Grok-4的“刷分技巧”:模型在训练中原生融入工具是突破考试基准的关键(如测试时结合训练+工具使用可达50.7%准确率),这一策略比单纯提升模型参数更有效,但未公开具体工具集成方法。
  • 行业竞争内幕:Grok-4的发布直接对标Gemini-2.5-Pro(提升18个百分点),暗示头部AI公司通过针对性优化基准测试(如“人类最后考试”)来制造营销亮点,而非全面能力提升。
  • 学术能力争议:马斯克称Grok-4“比博士生聪明”并预言其推动物理学发现,但实际可能依赖特定数据集微调考试题目泄露风险(如SAT裸考高分需验证题目是否被训练过)。
  • 未公开的基准测试局限性:GPQA、AIME25等满分表现可能掩盖模型在开放性推理或真实场景的缺陷,行业内部常通过选择有利基准规避短板。
  • 商业化时间表:提及“2025年布局多模态Agent”,释放信号可能为吸引早期投资者,实际落地需更长时间(内部人士通常知晓技术demo与产品的差距)。
  • 训练数据灰色地带:模型高分可能依赖非公开学术题库付费数据源(如GRE近满分需大量版权题目训练),但未说明数据获取合规性。
  • 工具链保密性:文中未提具体“工具”细节,推测涉及私有API未开源技术(如内部数学引擎),这类资源通常仅限合作方获取。