20250722-陶哲轩回应OpenAI宣称内部实验模型获得IMO金牌：不予置评「测试方法不公开就是“作弊”？」

原文摘要

原文链接

进一步信息揣测

OpenAI的“内部实验模型”可能并非完全通用LLM：虽然宣称是通用模型，但实际可能针对数学问题进行了特定优化或数据训练，未公开的微调细节可能显著影响结果。
竞赛成绩的“锁定模型”策略存在漏洞：声称模型在赛前锁定以排除作弊嫌疑，但未说明是否通过其他渠道（如往届试题、类似题库）间接接触过题目模式，存在数据污染风险。
陶哲轩的质疑暗示行业潜规则：顶级学者公开要求测试方法透明化，反映AI领域普遍存在“选择性报告”现象——企业可能只公布最优结果，隐藏辅助手段（如人工干预、多次尝试筛选）。
IMO规则的可操作性被利用：AI团队可能通过“领队”角色（如提示工程、结果过滤）变相作弊，类似现实中未公开的“后处理”步骤（如丢弃低分输出）会大幅虚报性能。
时间成本未公开：人类选手限时4.5小时，但AI可能消耗远超比赛时长的高算力资源（如千卡GPU集群），实际效率对比存疑，属于行业常见的“资源不对称”问题。
数学证明的“简化”陷阱：用英语而非形式化语言（如Lean）生成证明，可能掩盖逻辑漏洞，依赖人类评委的宽容度，类似商业AI产品中“演示优于实际”的营销策略。
学术与商业的博弈：OpenAI高调宣传竞赛成绩，实为争夺学术公信力以支撑商业估值，陶哲轩的审慎态度代表学界对AI公司“数据霸权”的警惕。