20250722-陶哲轩回应OpenAI宣称内部实验模型获得IMO金牌:不予置评「测试方法不公开就是“作弊”?」

原文摘要

原文链接

进一步信息揣测

  • OpenAI的“内部实验模型”可能并非完全通用LLM:虽然宣称是通用模型,但实际可能针对数学问题进行了特定优化或数据训练,未公开的微调细节可能显著影响结果。
  • 竞赛成绩的“锁定模型”策略存在漏洞:声称模型在赛前锁定以排除作弊嫌疑,但未说明是否通过其他渠道(如往届试题、类似题库)间接接触过题目模式,存在数据污染风险。
  • 陶哲轩的质疑暗示行业潜规则:顶级学者公开要求测试方法透明化,反映AI领域普遍存在“选择性报告”现象——企业可能只公布最优结果,隐藏辅助手段(如人工干预、多次尝试筛选)。
  • IMO规则的可操作性被利用:AI团队可能通过“领队”角色(如提示工程、结果过滤)变相作弊,类似现实中未公开的“后处理”步骤(如丢弃低分输出)会大幅虚报性能。
  • 时间成本未公开:人类选手限时4.5小时,但AI可能消耗远超比赛时长的高算力资源(如千卡GPU集群),实际效率对比存疑,属于行业常见的“资源不对称”问题。
  • 数学证明的“简化”陷阱:用英语而非形式化语言(如Lean)生成证明,可能掩盖逻辑漏洞,依赖人类评委的宽容度,类似商业AI产品中“演示优于实际”的营销策略。
  • 学术与商业的博弈:OpenAI高调宣传竞赛成绩,实为争夺学术公信力以支撑商业估值,陶哲轩的审慎态度代表学界对AI公司“数据霸权”的警惕。