20250722-告别评估乱象！首个视觉解释综合性基准发布，附人类真值__KDD'25

原文摘要

原文链接

进一步信息揣测

显著性解释方法的评估存在行业混乱：当前领域缺乏标准化评估流程，不同研究团队使用的数据集和指标差异大，导致结果难以横向比较，Saliency-Bench的推出间接揭示了这一“各自为政”的现状。
人类解释真值的数据集成本极高：标注8个跨领域任务（如癌症诊断、行为识别）的人类解释真值需要专业领域知识，通常需支付高额费用给专家，这类数据集在行业内属于稀缺资源，普通团队难以独立构建。
开源工具包的实际价值被低估：论文中提到的标准化工具包可能包含未公开的调参技巧或预处理步骤，这些细节在复现模型时至关重要，但通常不会在论文中详细说明，需通过代码或私下交流获取。
KDD会议接收的“潜规则”：该工作被KDD’25接收可能暗示其符合当前可解释AI的学术风向（如偏向医疗、多任务基准），研究者需关注顶会审稿人对“实用性”和“标准化”的偏好。
显著性方法的商业应用陷阱：医疗（癌症诊断）等高风险领域对解释的可靠性要求极高，但现有方法可能存在“虚假解释”风险（如聚焦无关区域），行业内部通常通过后处理技术掩盖，需警惕模型落地时的法律纠纷。
数据标注的灰色操作：文中未提及数据标注的具体流程，但涉及医学图像时，标注可能由非权威机构或外包团队完成，存在质量参差不齐的问题，影响基准可信度。
评估指标的局限性：尽管提出统一评估，但指标可能无法捕捉解释的“因果性”（如是否真正影响模型决策），业内资深人士常通过对抗测试验证，但这部分未在论文中体现。