原文摘要
近期, OpenAI 接连在多个场合携不同新模型“上桌”,且这些模型均还未公开发布。
进一步信息揣测
- OpenAI新模型测试策略:OpenAI正在通过非公开渠道(如WebArena)测试未发布的新模型(如“o3-alpha-responses-2025-07-17”),并以匿名身份(Anonymous-Chatbot)隐藏真实意图,可能是为规避早期舆论压力或竞争对手监测。
- IMO竞赛内幕争议:
- OpenAI自行评分并抢先宣布“金牌成绩”,但未遵循IMO官方评分标准(未公开),且疑似违反保密协议(其他AI公司如Harmonic、DeepMind均遵守延期发布要求)。
- 内部评审团由前IMO奖牌得主盲审,但缺乏第三方验证,存在“自评自夸”嫌疑。
- 模型性能差异:
- OpenAI模型以纯文本处理IMO题目,不同于谷歌DeepMind的专门优化系统(如AlphaProof需3天解题),但实际效率与公平性存疑(是否严格遵循4.5小时限制?)。
- 网友爆料称o3 Alpha模型在网页开发任务中表现惊艳,可能暗示其多模态能力远超当前公开模型(如Gemini 2.5 Pro)。
- 公关博弈:
- OpenAI被指责“博眼球无底线”,而谷歌DeepMind通过“尊重IMO流程”塑造专业形象,反映两家公司不同的舆论操控策略。
- OpenAI提前泄密可能为抢占媒体声量,但激怒了IMO社群,影响后续合作信任。
- 行业潜规则:
- IMO题目会同步分享给多家AI公司,但成绩发布需遵守官方时间表,OpenAI的违规行为暴露了行业对“首发权”的激烈争夺。
- 未公开模型(如疑似GPT-5的伪装版本)通过小范围测试收集数据,规避公开发布前的监管审查。