原文摘要
阶跃深研在 xbench-DeepSearch 评测中位列第一。
进一步信息揣测
- 评测基准可能存在偏向性:xbench-DeepSearch由红杉中国发布,阶跃星辰作为国内团队可能在数据训练或评测设计上更贴合中文互联网环境,而国际基准(如OpenAI的BrowseComp)通过率仅23%,暗示其泛化能力或存在局限。
- “行业领先”的模糊定义:宣传中未明确对比对象(如具体竞品名称),可能通过选择性对比或未公开的测试条件强化排名效果,实际商业场景中的表现可能差异较大。
- 邀测阶段的隐藏门槛:虽开放体验,但未提及邀测资格筛选机制(如内部分发、付费用户优先),早期用户可能获得优化后的模型,而公开版本性能或有缩水。
- “10分钟生成报告”的潜在缺陷:未说明复杂任务的边界(如数据源质量、跨领域整合的准确性),实际使用中可能出现信息片面或时效性问题,需人工二次验证。
- 垂直领域适配的未公开成本:金融、医疗等专业领域需定制化数据训练,可能依赖第三方合作或高额数据采购费用,普通用户难以复现宣传效果。
- 评测通过率背后的细节:70%通过率未公开具体任务类型(如简单检索vs多模态分析),可能通过规避高难度任务提升分数,实际能力边界存疑。
- 商业模式的隐含条件:免费体验后可能存在分级付费(如报告生成次数限制、高精度数据访问权限),长期使用成本未透明化。