原文摘要
🔬 OpenAI的o3在科学问答领域拔得头筹,DeepSeek-R1紧随其后
美国人工智能(AI)巨头OpenAI开发的AI模型o3,在艾伦人工智能研究所(Ai2)发布的基准测试平台SciArena中,被评为回答多领域科学问题的最佳工具。该平台通过102名研究人员对答案质量的投票,对23个大型语言模型(LLM)在科学问答中的表现进行了排名。
* OpenAI o3表现突出: o3在自然科学、医疗保健、工程学及人文与社会科学领域表现最优,获得超过13,000票支持。其优势在于提供详细引用文献和丰富的技术细节。
* DeepSeek-R1表现亮眼: 中国开源模型DeepSeek-R1在自然科学领域排名第二,工程学领域排名第四。
* Google Gemini-2.5-Pro表现稳健: Gemini-2.5-Pro在自然科学领域排名第三,工程学和医疗保健领域排名第五。
* SciArena平台特点: 该平台是首批通过众包反馈对科学任务表现进行排名的平台之一,旨在避免分数操纵。用户可免费提问,系统随机提供两个模型的答案供认证用户投票。
* 研究人员提醒: 大型语言模型的回答可能存在与文献冲突、术语误解或准确性不足的问题,其生成内容不能替代原文阅读研究论文。
(IT业界资讯)
via 茶馆 - Telegram Channel

进一步信息揣测
- 基准测试的潜在偏差:SciArena虽然声称避免分数操纵,但众包投票机制可能受研究人员主观偏好或模型知名度影响(如OpenAI品牌效应),未必完全客观反映模型真实能力。
- 开源模型的隐藏优势:DeepSeek-R1作为中国开源模型,可能在本地化数据处理或特定领域(如中文科学文献)有未公开的优化策略,这使其在部分领域超越闭源商业模型。
- 引用文献的可靠性陷阱:o3虽提供详细文献引用,但AI生成的引用可能存在“幻觉”(虚构或错误来源),需额外验证,而平台未说明是否对此进行筛查。
- 行业竞争内幕:Google Gemini-2.5-Pro排名中游,可能与测试场景未覆盖其擅长的多模态能力(如图表解析)有关,暗示基准设计可能偏向纯文本模型。
- 模型落地成本未提及:o3和Gemini等商业模型的API调用成本、响应延迟等实际应用问题未被讨论,开源模型(如DeepSeek)可能更适合预算有限的项目。
- 科学领域的“灰色答案”:研究人员提醒LLM答案可能不准确,但未透露具体高错误率领域(如医疗诊断或工程计算),这些领域需额外人工审核。
- 投票者背景影响结果:102名研究人员的专业分布(如是否偏重某学科)可能扭曲领域排名,但平台未公开投票者构成细节。
- 模型版本策略:o3可能是OpenAI未正式发布的内部版本,暗示头部公司会为特定测试定制优化模型,而公开版本性能可能不同。