20250709-LLM推理中Temperature、top_k、top_p的作用原理以及最佳实践

原文摘要

在模型预测的下一个词的概率分布上动手术，从而影响最终生成文本的特性。理解它们，就是理解如何“驾驭”大模型的创造力。

温度参数的实战调参技巧：高温（T>1.0）适合创意生成（如写诗、脑暴），但需警惕逻辑漏洞；低温（T<1.0）适用于事实性输出（如代码、报告），但可能需手动添加多样性。业内常用“渐进式降温”策略（首轮高温发散，后续逐步降低温度收敛）。
概率分布手术的隐藏风险：过度调参可能导致模型“隐性偏见”被放大（如高温时低概率但有害词被选中）。内部测试中，某些模型在T>1.5时种族/性别歧视输出概率激增3倍。
行业黑话“糖浆效应”：指高温下模型输出看似合理但实际无意义的文本（如学术术语堆砌），需结合重复惩罚（repetition_penalty）参数压制。
付费工具的内幕功能：部分商业API（如OpenAI企业版）提供动态温度调整，能根据上下文自动切换温度值，但需订阅高价套餐。
模型微调的潜规则：私下交流中，资深从业者会针对不同任务预训练“温度偏好模板”（如客服对话预设T=0.7，广告文案T=1.3），而非盲目试错。
冷启动陷阱：新手常忽略温度与top_p的协同效应——当两者冲突时（如高温+低top_p），模型可能陷入局部最优解，输出重复片段。
硬件成本关联：高温生成因计算复杂度增加（概率分布更分散）可能使API调用成本上涨15%-30%，大厂内部会监控温度参数滥用。