20250711-🖼_科学问答AI哪家强?_OpenAI_o3夺冠_DeepSeek-R1紧随其后

原文摘要

科学问答AI哪家强? OpenAI o3夺冠 DeepSeek-R1紧随其后

美国人工智能(AI)巨头OpenAI打造的AI模型o3,在艾伦人工智能研究所(Ai2)上周发布的基准测试平台SciArena中被评为回答多领域科学问题的最佳工具。该平台依据102名研究人员对答案质量的投票结果,对23个大型语言模型(LLM)在科学问答中的表现进行了排名。

OpenAI的o3在自然科学、医疗保健、工程学及人文与社会科学领域的回答表现最优,获得超13,000票支持。中国开源模型DeepSeek-R1在自然科学中排名第二,工程学中位列第四;Google的Gemini-2.5-Pro在自然科学中排名第三,工程学和医疗保健中排名第五。

Ai2指出,o3的优势在于其详细引用文献并提供技术细节丰富的回答,但模型表现差异可能部分源于训练数据和优化目标等方面的不同。

SciArena是首批通过众包反馈对科学任务表现进行排名的平台之一,其设计避免了分数操纵等问题。 用户可免费使用该平台提问,系统随机提供两个模型的答案并邀请投票,但仅认证用户的投票计入排行榜。平台通过Semantic Scholar提供参考文献,以增强答案的参考性。

悉尼大学的研究人员认为,SciArena有助于研究者跟进前沿文献,并推动AI模型创新,但其可持续性依赖用户参与度。最后,研究者提醒,大型语言模型的回答可能存在与文献冲突、术语误解或准确性不足的问题,其生成内容不能替代原文阅读研究论文。

via cnBeta.COM - 中文业界资讯站 (author: 稿源:网易科技)

原文链接

进一步信息揣测

  • SciArena的投票机制存在潜在偏见:虽然平台声称通过随机分配答案和认证用户投票来避免操纵,但认证用户的专业背景可能不均衡(例如某些领域专家占比过高),导致投票结果偏向特定领域或模型。
  • 模型排名受训练数据影响显著:OpenAI的o3表现优异可能与其使用的专有数据集或未公开的优化技术有关(如付费论文库访问权限或行业合作数据),而开源模型(如DeepSeek-R1)因数据限制难以完全匹敌。
  • 参考文献引用可能“形式大于内容”:o3的文献引用被列为优势,但实际引用质量(如是否精准匹配问题或存在“装饰性引用”)未明确说明,用户需自行验证,这可能隐藏误导风险。
  • 行业竞争下的测试平台局限性:SciArena由艾伦研究所(非完全中立第三方)运营,可能间接反映美国AI产业倾向(如突出OpenAI、Google),而中国模型排名虽高但未提及其在中文科学文献上的潜在优势。
  • 可持续性依赖隐性成本:平台免费但依赖用户参与,长期运营可能需要商业合作或数据变现(如投票行为用于模型训练),未公开的商业模式可能影响未来公正性。
  • 未公开的模型“调参技巧”:排名靠前的模型可能针对SciArena的评估标准(如技术细节长度、引用格式)进行了非通用优化,实际应用时表现可能不同。
  • 学术与工业界的“数据鸿沟”:高校研究者使用此类平台时,可能因无法访问工业级训练数据(如医疗私有数据库)而低估商业模型的真实能力。
  • 术语误解风险被轻描淡写:研究者警告的“准确性不足”问题,实际可能涉及法律或医疗等高风险领域,但未具体说明模型在哪些学科错误率最高,需内部测试数据才能规避。