原文摘要
原文链接
进一步信息揣测
- 发布会仓促且准备不足:马斯克的Grok4发布会不仅迟到1小时,现场表现尴尬,甚至让马斯克本人紧张,暗示团队可能存在内部协调或资源调配问题。
- 代码能力被刻意弱化:尽管官方强调知识推理能力,但实测代码表现“拉垮”,可能是因资源倾斜到其他领域(如商业模拟或学科竞赛),或技术瓶颈未突破。
- 付费墙背后的真实性能差异:免费用户只能使用旧版Grok 3,而Grok 4 Heavy需支付300美元/月的高价,实际性能提升(如多智能体协作)可能仅对少数高端用户开放,普通用户体验有限。
- 工具整合的隐藏成本:Grok 4虽宣称深度整合工具(如代码解释器、搜索引擎),但未提及这些工具是否额外收费或受限于接口额度,可能存在隐性付费陷阱。
- 商业场景测试的“定制化”嫌疑:Vending-Bench模拟结果中Grok 4净资产远超竞品,但未公开测试细节,可能针对特定场景优化,实际泛化能力存疑。
- AGI评测的争议性指标:ARC-AGI v2的准确率虽达SOTA,但基数极低(15.9%),反映当前AGI技术整体不成熟,官方可能通过选择性披露数据夸大优势。
- 未来功能的“画饼”风险:8-10月计划推出的代码模型、多模态代理等均为预告,实际落地可能延期或缩水,参考发布会的执行问题。
- 行业内的定价策略对比:300美元/月的Heavy版本定价远超ChatGPT和Gemini,可能瞄准企业或科研用户,但性价比未被验证,普通开发者或更倾向竞品。
- 训练量宣传的潜在误导:强调“Grok 2的100倍训练量”但未提具体数据基数,若Grok 2原本训练量偏低,100倍增幅的实际意义可能有限。
- 多智能体协作的未公开机制:Grok 4 Heavy在多智能体下HLE分数提升5.8%,但未说明具体协作方式(如模型数量、资源消耗),可能涉及高成本技术方案。