20250712-马斯克Grok-4碾压所有大模型！“比所有领域博士都聪明”，AIME25拿满分

原文摘要

已经布局多模态Agent和视频模型，代码模型马上发

Grok-4的“刷分技巧”：模型在训练中原生融入工具是突破考试基准的关键（如测试时结合训练+工具使用可达50.7%准确率），这一策略比单纯提升模型参数更有效，但未公开具体工具集成方法。
行业竞争内幕：Grok-4的发布直接对标Gemini-2.5-Pro（提升18个百分点），暗示头部AI公司通过针对性优化基准测试（如“人类最后考试”）来制造营销亮点，而非全面能力提升。
学术能力争议：马斯克称Grok-4“比博士生聪明”并预言其推动物理学发现，但实际可能依赖特定数据集微调或考试题目泄露风险（如SAT裸考高分需验证题目是否被训练过）。
未公开的基准测试局限性：GPQA、AIME25等满分表现可能掩盖模型在开放性推理或真实场景的缺陷，行业内部常通过选择有利基准规避短板。
商业化时间表：提及“2025年布局多模态Agent”，释放信号可能为吸引早期投资者，实际落地需更长时间（内部人士通常知晓技术demo与产品的差距）。
训练数据灰色地带：模型高分可能依赖非公开学术题库或付费数据源（如GRE近满分需大量版权题目训练），但未说明数据获取合规性。
工具链保密性：文中未提具体“工具”细节，推测涉及私有API或未开源技术（如内部数学引擎），这类资源通常仅限合作方获取。