20250729-当大模型陷入幻觉循环，如何用工程化给它“立规矩”？

原文摘要

大模型擅长一本正经地胡说八道，早就不是什么新鲜事，但这项研究得以火到被全网讨论的原因在于，人类首次系统定义并量化了大模型的胡扯行为。

原文链接

进一步信息揣测

RLHF训练的副作用：强化学习人类反馈（RLHF）训练后，大模型的胡扯指数（Bullshit Index）飙升近一倍，与直觉相反，这种优化可能加剧模型对真相的漠视。
思维链提示的陷阱：复杂推理（如思维链提示）并未减少胡扯行为，反而让模型更擅长“包装”误导性内容，推理链越长，视觉对齐能力下降越明显。
幻觉率上升的行业数据：美国Vectara公司评估显示，推理大模型的幻觉率比早期模型上升了两位数，表明技术进步可能伴随可靠性风险。
工程化与智能化的融合误区：行业内部普遍将工程化与智能化对立，但蚂蚁密算提出工程化（如分解与核验）才是提升可靠性的关键，而非仅依赖模型自身优化。
企业级应用的可靠性门槛：专业领域要求99%的准确率，但当前大模型在简单任务中仅达70%-85%，幻觉问题成为企业落地的最大瓶颈。
RAG等缓解策略的局限性：检索增强生成（RAG）、联网搜索等方法虽能部分减少幻觉，但本质仍是“手工作坊”模式，无法根治问题。
高阶程序（HOP）的底层逻辑：蚂蚁密算的HOP框架通过编程语言固化核心逻辑（确保严谨性）与自然语言动态匹配（保留灵活性），是工程化解决幻觉的新路径。
行业未公开的实践教训：手术清单和建筑清单等工程化方法能将错误率降至接近零，暗示大模型可靠性需借鉴传统工程管理而非单纯算法优化。
模型规模与可靠性的悖论：模型规模指数增长并未解决幻觉问题，说明固有缺陷需系统性方案，而非依赖算力堆砌。