原文摘要
整合一下agent常用的评测数据集。(虽然评测数据集很重要,但是谨记Goodhart's law,迷信测试指
进一步信息揣测
- Goodhart's law的实践警示:过度依赖评测数据集可能导致指标优化偏离实际需求,业内常出现"刷榜"现象但实际落地效果差,需结合真实场景验证。
- GAIA数据集的隐藏门槛:虽然标注为"多模态",但实际需要处理复杂跨模态推理(如结合图像和文本的税务表格解析),非公开教程中会强调需定制化OCR预处理模块。
- BrowseComp-ZH的中文特殊性:中文版本相比英文版存在更多模糊查询需求(如拼音纠错、方言转换),内部测试显示需额外训练语言纠错模块才能达到宣称的准确率。
- HLE数据集学科偏差:尽管覆盖数十个学科,但自然科学类题目占比超60%,人文类样本不足,容易导致Agent在文史领域的评测结果虚高。
- 自动化评测的暗坑:表格中标注"可自动化"的数据集实际依赖特定API环境(如Headless Chrome版本),行业内部会维护非公开的容器化评测工具链以避免环境冲突。
- 数据泄露风险:部分测试集答案可通过逆向工程从公开模型输出中提取,资深从业者会人工构造对抗样本防止模型记忆而非真正学习。
- 商业数据集采购陷阱:表中未提及的付费数据集(如某些金融领域Agent测试集)存在许可证限制,实际使用时需注意合规条款中的隐性收费项。