20250722-李宏毅2025第七讲｜如何让大模型学会「深度思考」？透彻总结打造类DeepSeek-R1的四大方法

原文摘要

AI也可以是一根会思考的芦苇

原文链接

进一步信息揣测

测试时计算（Testing Time Compute）是提升模型推理能力的核心策略：通过增加推理阶段的资源投入（如生成更长文本进行自我验证），以计算成本换取更优结果，类似AlphaGo的蒙特卡洛树搜索（MCTS），但这一策略通常不会公开讨论其具体资源消耗与成本权衡。
思维链（CoT）的隐藏设计技巧：无需微调的CoT实际依赖特定提示词（prompt）设计，行业内会通过私有数据集优化提示模板，但公开教程极少透露如何精准构造这些提示（如分步引导、自我质疑等触发逻辑）。
模仿学习与强化学习的微调内幕：需微调的方法（如RLHF）依赖高质量人类反馈数据，但实际中数据标注存在“捷径偏见”（标注者可能简化复杂逻辑），导致模型学到的“深度思考”可能仅是表面模式，需额外对抗训练修正。
DeepSeek-R1的混合方法未公开细节：课程提到“多种方法复杂融合”，但未说明具体如何协调不同技术的冲突（如CoT与RLHF的优先级），业内通常通过分层架构或动态权重调整实现，但相关代码和参数设计属商业机密。
模型“内心戏”生成的资源消耗问题：生成详细推理文本会显著增加API调用成本（如token数翻倍），企业级应用中常会限制推理步骤以平衡效果与成本，但这一优化策略很少在公开文档中提及。
行业对“深度思考”定义的刻意模糊化：强调“行为模式”而非真实意识，是为规避伦理争议，实际研发中可能存在隐性拟人化倾向（如模拟人类犹豫、修正等交互设计），但对外宣传会严格剥离这类表述。