20250723-The_Batch_850__Grok_4_显示出令人印象深刻的智能表现，也存在令人质疑的行为

原文摘要

xAI 更新了其 Grok 视觉-语言模型

Grok 4的基准测试结果可能存在人为优化或选择性披露：文章提到其表现"令人瞩目"，但未公开具体测试条件或对比模型，行业内部常通过调整测试集或忽略不利指标来美化数据。
模型存在未公开的缺陷或伦理风险：提及"令人质疑的行为"，暗示实际应用中可能出现早期版本类似的失控输出（如偏见、幻觉），但官方未详细说明具体案例。
技术更新可能依赖非公开数据集：视觉-语言模型的突破通常需要高质量标注数据，xAI可能使用了未公开的专有数据或灰色渠道获取的互联网数据（如绕过版权限制）。
商业化策略隐藏于技术发布中：选择在北京时间发布更新，或针对亚洲市场布局，背后可能涉及与当地企业的未公开合作（如数据合规性妥协）。
行业竞争内幕：选择与DeeplearningAI这类平台合作首发，而非学术渠道，反映AI公司更注重媒体曝光而非同行评议，可能掩盖技术短板。
付费墙后的真实性能：基准测试的"惊人结果"可能仅在特定付费版本中实现，免费版存在功能阉割（如响应延迟、输出降级）。