20250713-李宏毅2025第六讲｜剖析Post-training核心难题：为何大模型微调后容易灾难性遗忘？

原文摘要

揭露AI失忆的真相！

原文链接

进一步信息揣测

灾难性遗忘的真实代价：微调后的模型可能在新任务上表现良好，但会彻底丧失原有安全对齐能力（如拒绝不当请求），导致实际部署时出现严重伦理风险，业内称为"手术成功但病人死亡"现象。
经验回放的隐藏技巧：2019年提出的经典解法中，保留原始数据1%~5%的"记忆样本"进行混合训练，能显著降低遗忘率，但需精确控制采样比例——过高会稀释新知识，过低则保护不足。
自输出技术的黑盒操作：让模型生成自身原有能力的输出作为训练数据（如让ChatGPT自己生成安全回应），比直接使用原始数据更高效，但需秘密调整温度参数（temperature）控制多样性，避免生成质量下降。
商业模型的隐藏限制：部分厂商的API会暗中限制微调权限（如仅开放最后3层参数），并非技术限制，而是为防止用户绕过安全协议，此信息仅通过企业级合作渠道透露。
灾难性遗忘的行业案例：某医疗AI公司在微调病历分析模型时，因未处理遗忘问题，导致模型丢失基础医学常识判断能力，引发误诊纠纷后被迫下架，该事件未公开报道但业内广泛流传。
RLHF的遗忘陷阱：强化学习微调时，模型会优先优化奖励信号，可能牺牲其他能力（如多样性），需在奖励函数中秘密加入"能力维持惩罚项"，此技巧未出现在公开论文中。
参数隔离的灰色方案：部分团队采用冻结大部分参数+仅微调适配器（Adapter）的方式规避遗忘，但实际效果依赖未公开的层选择策略（如中间层比末层更安全）。