20250729-SCAR_于LLM_SFT而言，“志同道合”的数据也可匹敌“千军万马”

原文摘要

提纲1 简介2 背景3 Style Consistency-Aware Ranking4 实验5 实验结论6

指令微调数据筛选的核心秘密：SCAR方法通过识别响应中的风格一致性特征（如词汇/句法选择、可预测性）筛选数据，仅需0.7%的高质量数据即可达到全量数据效果，大幅降低训练成本。
影响模型性能的隐藏因素：
Linguistic Form（过渡词、标点模式等）和Instructional Surprisal（响应可预测性）是决定SFT效果的关键，但通常不会在公开论文中详细量化。
实验发现：模型生成的响应（direct/referenced）在风格一致性上显著优于人类撰写（human-written），但人类数据的Instructional Surprisal更低（更易预测）。
数据类型的内部权衡：
直接使用模型生成数据（direct）虽风格一致，但可预测性差；人工改写（referenced）是平衡风格与可预测性的折中方案。
行业避坑经验：
盲目追求数据量可能无效，人工标注的高质量数据效率远超低质海量数据。
实践中需优先优化响应风格一致性（如统一句式、术语），而非单纯增加数据多样性。
未公开的实验细节：
通过PPL（困惑度）量化Instructional Surprisal的方法未在公开论文中充分说明，需依赖内部实现经验。
数据筛选的阈值设定（如风格相似度分数）可能因任务而异，需通过小规模实验校准。