20250712-研究者尝试揭示扩散模型创造力的起源 - 个人信息聚合器

20250712-研究者尝试揭示扩散模型创造力的起源

返回

原文摘要

斯坦福大学研究人员提出扩散模型创造力机制，指出归纳偏置等是关键，ELS机可解析其行为。

进一步信息揣测

扩散模型创造力的本质：实际是模型无法完全掌握理想评分函数的结果，而非设计初衷。这种“缺陷”反而成为生成新样本的关键，与公开宣传的“智能创造”有差异。
局部拼贴式生成内幕：扩散模型并非真正“理解”图像内容，而是通过局部图像块的混合匹配（类似拼贴）生成新图像，这解释了为何会出现多余手指等低级错误。
CNN结构的隐藏限制：平移等变性和局部性偏置是模型的核心约束，导致其无法处理全局信息，这一局限在行业内部常被弱化讨论。
自注意力层的矛盾：尽管论文排除自注意力层（SA）以简化研究，但实验显示SA模型仍受局部性影响，暗示当前扩散模型的“全局理解”能力可能被夸大。
理论验证的捷径：研究者通过简化模型（ELS机）替代复杂训练，快速验证假设，这种方法在学术圈外较少公开，可节省大量实验成本。
开源代码的潜台词：论文配套代码开源，但实际应用中需调整超参和数据集，隐含了“理论到落地仍有鸿沟”的行业现实。
错误生成的必然性：多余肢体等问题并非偶然，而是局部性偏置的必然结果，业内通常归因于数据质量，回避模型架构的根本缺陷。