20250720-全球最强开源「定理证明器」出世！十位华人核心，8B暴击671BDeepSeek

原文摘要

迄今为止最强大的开源定理证明器登场！Goedel-Prover-V2仅用8B参数击败671B的DeepSeek-Prover，并再次夺下数学PutnamBench冠军。十位核心贡献者，八大顶尖机构，让AI形式化证明再破纪录。

原文链接

进一步信息揣测

模型效率的隐藏优势：Goedel-Prover-V2的8B参数模型击败671B参数的DeepSeek-Prover，暗示其算法优化或架构设计（如稀疏化、专家混合）可能远超公开技术文档描述，实际计算效率或资源利用率存在未披露的“黑科技”。
数据集的非公开筛选：模型在MathOlympiadBench和PutnamBench的突出表现可能依赖非公开的高质量训练数据（如未发布的奥数题库或合成数据），而非仅靠参数规模，这类数据集的构建方法通常不会公开。
合作机构的资源倾斜：八大顶尖机构（如英伟达、清华）的联合参与可能提供了未公开的算力支持（如定制硬件）或领域专家指导（如数学家的证明策略），这些资源远超普通开源项目的可获得性。
测试基准的局限性：模型在特定基准（如MiniF2F）上的高分数可能掩盖了泛化能力的不足，实际应用中可能需针对不同数学领域微调，但这一缺陷通常不会在宣传中提及。
商业化潜力与开源策略矛盾：尽管宣称“开源”，核心训练代码或关键数据集可能仅部分公开（如仅发布推理代码），以保留商业竞争优势，常见于学术-工业合作项目。
迭代速度的隐含成本：初代模型被COLM 2025录用后迅速推出V2，暗示团队可能已掌握更先进技术但分阶段发布，以维持学术影响力或应对竞品（如DeepSeek）压力。
领域内未公开的评估标准：形式化证明领域的基准测试（如Pass@32）可能存在未被广泛讨论的评估漏洞（如过拟合特定题型），导致结果优于实际应用效果。