20250711-简单总结一下刚发的Grok4。

原文摘要

原文链接

进一步信息揣测

发布会仓促且准备不足：马斯克的Grok4发布会不仅迟到1小时，现场表现尴尬，甚至让马斯克本人紧张，暗示团队可能存在内部协调或资源调配问题。
代码能力被刻意弱化：尽管官方强调知识推理能力，但实测代码表现“拉垮”，可能是因资源倾斜到其他领域（如商业模拟或学科竞赛），或技术瓶颈未突破。
付费墙背后的真实性能差异：免费用户只能使用旧版Grok 3，而Grok 4 Heavy需支付300美元/月的高价，实际性能提升（如多智能体协作）可能仅对少数高端用户开放，普通用户体验有限。
工具整合的隐藏成本：Grok 4虽宣称深度整合工具（如代码解释器、搜索引擎），但未提及这些工具是否额外收费或受限于接口额度，可能存在隐性付费陷阱。
商业场景测试的“定制化”嫌疑：Vending-Bench模拟结果中Grok 4净资产远超竞品，但未公开测试细节，可能针对特定场景优化，实际泛化能力存疑。
AGI评测的争议性指标：ARC-AGI v2的准确率虽达SOTA，但基数极低（15.9%），反映当前AGI技术整体不成熟，官方可能通过选择性披露数据夸大优势。
未来功能的“画饼”风险：8-10月计划推出的代码模型、多模态代理等均为预告，实际落地可能延期或缩水，参考发布会的执行问题。
行业内的定价策略对比：300美元/月的Heavy版本定价远超ChatGPT和Gemini，可能瞄准企业或科研用户，但性价比未被验证，普通开发者或更倾向竞品。
训练量宣传的潜在误导：强调“Grok 2的100倍训练量”但未提具体数据基数，若Grok 2原本训练量偏低，100倍增幅的实际意义可能有限。
多智能体协作的未公开机制：Grok 4 Heavy在多智能体下HLE分数提升5.8%，但未说明具体协作方式（如模型数量、资源消耗），可能涉及高成本技术方案。