20250718-🎬_相较于_Open_AI_的_Agent_模式,我觉得昨晚最重要的发布是这个

原文摘要

相较于 Open AI 的 Agent 模式,我觉得昨晚最重要的发布是这个

DecartAI 发布了 MirageLSD:世界上首个实时直播视频模型,可以将摄像头的画面实时转换为其他风格和内容的视频。

延迟只有 40 毫秒,而且支持无限长度视频生成!

这里尝试:https://about.decart.ai/

技术报告中最重要的两个部分:

(1)无限生成

问题:传统自回归视频模型因误差累积,生成时长受限,质量迅速下降。

解决方案:
Diffusion Forcing:每帧独立去噪,提升逐帧生成能力。
历史增强(History Augmentation):模型在训练时引入带有伪影的历史帧,学会预期并纠正输入中的缺陷,从而增强对误差漂移的鲁棒性。

效果:首次实现了无限时长、稳定、可控的自动回归视频生成。

(2)实时性能

问题:高质量扩散模型计算量大,传统 GPU 架构难以满足每帧 40 毫秒内生成的低延迟要求。

解决方案:
定制 CUDA Mega Kernels:为 NVIDIA Hopper 架构优化,减少每层延迟并集成 GPU 间通信。
架构感知剪枝:结合模型结构与系统优化,减少每次推理所需的 FLOPs,并利用硬件稀疏性提升效率。
捷径蒸馏(Shortcut Distillation):用小模型学习大模型的去噪轨迹,减少每帧所需的扩散步骤,保证质量和一致性。

效果:响应速度提升 16 倍,实现 24FPS 实时视频生成。

视频内容
由于平台限制,该视频无法直接播放。
在新标签页中打开

原文链接

进一步信息揣测

  • 无限生成的隐藏成本:虽然技术报告强调“无限时长生成”,但实际应用中可能面临高昂的算力成本。历史增强和Diffusion Forcing需要持续的高性能GPU支持,长期运行的电力和硬件损耗成本未被提及。行业内部通常通过云服务转嫁成本,但用户可能面临按分钟计费的高额账单。
  • 实时性能的硬件锁定:定制CUDA Mega Kernels和Hopper架构优化意味着该技术严重依赖NVIDIA最新显卡(如H100),其他厂商(AMD/Intel)或旧型号GPU可能无法达到宣传效果。这种“硬件绑定”是AI公司常见的商业策略,通过技术壁垒推动硬件销售分成。
  • 捷径蒸馏的质量妥协:用小模型模仿大模型去噪轨迹(Shortcut Distillation)虽提升速度,但实际输出可能存在细节丢失或艺术风格偏差。业内通常不会公开说明这种“降级”程度,需付费订阅高阶模型才能获得更接近原始大模型的效果。
  • 伪影训练的行业黑盒:历史增强中“带有伪影的历史帧”训练数据的具体构成未披露。实际可能包含大量未授权的影视素材片段(如动画/电影截取帧),这类数据清洗和版权问题在AI视频领域普遍存在但极少公开讨论。
  • 24FPS的隐藏条件:实时生成宣称24FPS,但技术报告未提及分辨率限制。内部测试可能基于720p或更低分辨率,4K/8K下性能会骤降。类似案例中(如Stable Diffusion),公司常通过“动态降分辨率”维持帧率,但用户需手动调整参数才能发现。
  • 误差累积的B计划:尽管声称解决了误差漂移,但极端场景下(如快速镜头切换)仍可能出现画面崩坏。行业通用做法是设置“自动重置阈值”,在检测到异常时静默重启生成流程,导致短暂卡顿,但这一容灾机制未被写入公开文档。
  • 合作伙伴的优先访问权:DecartAI官网的“尝试”链接可能仅展示演示版本。实际商用API通常优先提供给战略合作伙伴(如Adobe/Runway),独立开发者需排队申请或支付高额准入费,这种分级访问策略在AI初创公司中已成潜规则。