20250712-研究者尝试揭示扩散模型创造力的起源

原文摘要

斯坦福大学研究人员提出扩散模型创造力机制,指出归纳偏置等是关键,ELS机可解析其行为。

原文链接

进一步信息揣测

  • 扩散模型创造力的本质:实际是模型无法完全掌握理想评分函数的结果,而非设计初衷。这种“缺陷”反而成为生成新样本的关键,与公开宣传的“智能创造”有差异。
  • 局部拼贴式生成内幕:扩散模型并非真正“理解”图像内容,而是通过局部图像块的混合匹配(类似拼贴)生成新图像,这解释了为何会出现多余手指等低级错误。
  • CNN结构的隐藏限制:平移等变性和局部性偏置是模型的核心约束,导致其无法处理全局信息,这一局限在行业内部常被弱化讨论。
  • 自注意力层的矛盾:尽管论文排除自注意力层(SA)以简化研究,但实验显示SA模型仍受局部性影响,暗示当前扩散模型的“全局理解”能力可能被夸大。
  • 理论验证的捷径:研究者通过简化模型(ELS机)替代复杂训练,快速验证假设,这种方法在学术圈外较少公开,可节省大量实验成本。
  • 开源代码的潜台词:论文配套代码开源,但实际应用中需调整超参和数据集,隐含了“理论到落地仍有鸿沟”的行业现实。
  • 错误生成的必然性:多余肢体等问题并非偶然,而是局部性偏置的必然结果,业内通常归因于数据质量,回避模型架构的根本缺陷。