20250711-🖼_🔬_OpenAI的o3在科学问答领域拔得头筹，DeepSeek-R1紧随其后

原文摘要

🔬 OpenAI的o3在科学问答领域拔得头筹，DeepSeek-R1紧随其后

美国人工智能（AI）巨头OpenAI开发的AI模型o3，在艾伦人工智能研究所（Ai2）发布的基准测试平台SciArena中，被评为回答多领域科学问题的最佳工具。该平台通过102名研究人员对答案质量的投票，对23个大型语言模型（LLM）在科学问答中的表现进行了排名。

* OpenAI o3表现突出： o3在自然科学、医疗保健、工程学及人文与社会科学领域表现最优，获得超过13,000票支持。其优势在于提供详细引用文献和丰富的技术细节。
* DeepSeek-R1表现亮眼： 中国开源模型DeepSeek-R1在自然科学领域排名第二，工程学领域排名第四。
* Google Gemini-2.5-Pro表现稳健： Gemini-2.5-Pro在自然科学领域排名第三，工程学和医疗保健领域排名第五。
* SciArena平台特点： 该平台是首批通过众包反馈对科学任务表现进行排名的平台之一，旨在避免分数操纵。用户可免费提问，系统随机提供两个模型的答案供认证用户投票。
* 研究人员提醒： 大型语言模型的回答可能存在与文献冲突、术语误解或准确性不足的问题，其生成内容不能替代原文阅读研究论文。

(IT业界资讯)

via 茶馆 - Telegram Channel

原文链接

进一步信息揣测

基准测试的潜在偏差：SciArena虽然声称避免分数操纵，但众包投票机制可能受研究人员主观偏好或模型知名度影响（如OpenAI品牌效应），未必完全客观反映模型真实能力。
开源模型的隐藏优势：DeepSeek-R1作为中国开源模型，可能在本地化数据处理或特定领域（如中文科学文献）有未公开的优化策略，这使其在部分领域超越闭源商业模型。
引用文献的可靠性陷阱：o3虽提供详细文献引用，但AI生成的引用可能存在“幻觉”（虚构或错误来源），需额外验证，而平台未说明是否对此进行筛查。
行业竞争内幕：Google Gemini-2.5-Pro排名中游，可能与测试场景未覆盖其擅长的多模态能力（如图表解析）有关，暗示基准设计可能偏向纯文本模型。
模型落地成本未提及：o3和Gemini等商业模型的API调用成本、响应延迟等实际应用问题未被讨论，开源模型（如DeepSeek）可能更适合预算有限的项目。
科学领域的“灰色答案”：研究人员提醒LLM答案可能不准确，但未透露具体高错误率领域（如医疗诊断或工程计算），这些领域需额外人工审核。
投票者背景影响结果：102名研究人员的专业分布（如是否偏重某学科）可能扭曲领域排名，但平台未公开投票者构成细节。
模型版本策略：o3可能是OpenAI未正式发布的内部版本，暗示头部公司会为特定测试定制优化模型，而公开版本性能可能不同。