20250712-Agent评测数据集 - 个人信息聚合器

原文摘要

整合一下agent常用的评测数据集。（虽然评测数据集很重要，但是谨记Goodhart's law，迷信测试指

Goodhart's law的实践警示：过度依赖评测数据集可能导致指标优化偏离实际需求，业内常出现"刷榜"现象但实际落地效果差，需结合真实场景验证。
GAIA数据集的隐藏门槛：虽然标注为"多模态"，但实际需要处理复杂跨模态推理（如结合图像和文本的税务表格解析），非公开教程中会强调需定制化OCR预处理模块。
BrowseComp-ZH的中文特殊性：中文版本相比英文版存在更多模糊查询需求（如拼音纠错、方言转换），内部测试显示需额外训练语言纠错模块才能达到宣称的准确率。
HLE数据集学科偏差：尽管覆盖数十个学科，但自然科学类题目占比超60%，人文类样本不足，容易导致Agent在文史领域的评测结果虚高。
自动化评测的暗坑：表格中标注"可自动化"的数据集实际依赖特定API环境（如Headless Chrome版本），行业内部会维护非公开的容器化评测工具链以避免环境冲突。
数据泄露风险：部分测试集答案可通过逆向工程从公开模型输出中提取，资深从业者会人工构造对抗样本防止模型记忆而非真正学习。
商业数据集采购陷阱：表中未提及的付费数据集（如某些金融领域Agent测试集）存在许可证限制，实际使用时需注意合规条款中的隐性收费项。