20250718-🎬_相较于_Open_AI_的_Agent_模式，我觉得昨晚最重要的发布是这个

原文摘要

相较于 Open AI 的 Agent 模式，我觉得昨晚最重要的发布是这个

DecartAI 发布了 MirageLSD：世界上首个实时直播视频模型，可以将摄像头的画面实时转换为其他风格和内容的视频。

延迟只有 40 毫秒，而且支持无限长度视频生成！

这里尝试：https://about.decart.ai/

技术报告中最重要的两个部分：

（1）无限生成

问题：传统自回归视频模型因误差累积，生成时长受限，质量迅速下降。

解决方案：
Diffusion Forcing：每帧独立去噪，提升逐帧生成能力。
历史增强（History Augmentation）：模型在训练时引入带有伪影的历史帧，学会预期并纠正输入中的缺陷，从而增强对误差漂移的鲁棒性。

效果：首次实现了无限时长、稳定、可控的自动回归视频生成。

（2）实时性能

问题：高质量扩散模型计算量大，传统 GPU 架构难以满足每帧 40 毫秒内生成的低延迟要求。

解决方案：
定制 CUDA Mega Kernels：为 NVIDIA Hopper 架构优化，减少每层延迟并集成 GPU 间通信。
架构感知剪枝：结合模型结构与系统优化，减少每次推理所需的 FLOPs，并利用硬件稀疏性提升效率。
捷径蒸馏（Shortcut Distillation）：用小模型学习大模型的去噪轨迹，减少每帧所需的扩散步骤，保证质量和一致性。

效果：响应速度提升 16 倍，实现 24FPS 实时视频生成。

视频内容

由于平台限制，该视频无法直接播放。

在新标签页中打开

原文链接

进一步信息揣测

无限生成的隐藏成本：虽然技术报告强调“无限时长生成”，但实际应用中可能面临高昂的算力成本。历史增强和Diffusion Forcing需要持续的高性能GPU支持，长期运行的电力和硬件损耗成本未被提及。行业内部通常通过云服务转嫁成本，但用户可能面临按分钟计费的高额账单。
实时性能的硬件锁定：定制CUDA Mega Kernels和Hopper架构优化意味着该技术严重依赖NVIDIA最新显卡（如H100），其他厂商（AMD/Intel）或旧型号GPU可能无法达到宣传效果。这种“硬件绑定”是AI公司常见的商业策略，通过技术壁垒推动硬件销售分成。
捷径蒸馏的质量妥协：用小模型模仿大模型去噪轨迹（Shortcut Distillation）虽提升速度，但实际输出可能存在细节丢失或艺术风格偏差。业内通常不会公开说明这种“降级”程度，需付费订阅高阶模型才能获得更接近原始大模型的效果。
伪影训练的行业黑盒：历史增强中“带有伪影的历史帧”训练数据的具体构成未披露。实际可能包含大量未授权的影视素材片段（如动画/电影截取帧），这类数据清洗和版权问题在AI视频领域普遍存在但极少公开讨论。
24FPS的隐藏条件：实时生成宣称24FPS，但技术报告未提及分辨率限制。内部测试可能基于720p或更低分辨率，4K/8K下性能会骤降。类似案例中（如Stable Diffusion），公司常通过“动态降分辨率”维持帧率，但用户需手动调整参数才能发现。
误差累积的B计划：尽管声称解决了误差漂移，但极端场景下（如快速镜头切换）仍可能出现画面崩坏。行业通用做法是设置“自动重置阈值”，在检测到异常时静默重启生成流程，导致短暂卡顿，但这一容灾机制未被写入公开文档。
合作伙伴的优先访问权：DecartAI官网的“尝试”链接可能仅展示演示版本。实际商用API通常优先提供给战略合作伙伴（如Adobe/Runway），独立开发者需排队申请或支付高额准入费，这种分级访问策略在AI初创公司中已成潜规则。