20250710-ICML_2025｜快手提出了基于残差的超低码率图像压缩方法ResULIC

原文摘要

ResULIC：超低码率限制下，生成超高保真度、细节纹理丰富的图像。

原文链接

进一步信息揣测

超低码率图像压缩的行业痛点：现有基于学习的图像压缩技术在低码率下普遍存在纹理过度平滑、细节丢失问题，而AIGC扩散模型虽能改善视觉效果，但保真度与一致性仍不足，这是行业未公开讨论但实际研发中频繁遇到的瓶颈。
技术融合内幕：快手团队采用的“语义残差编码+压缩感知扩散”方案，本质是通过牺牲部分传统编码的精确性，换取生成模型对高频细节的补全能力，这种权衡策略在工业级应用中通常不会明确披露。
学术与工业的鸿沟：论文中提到扩散模型在极低码率下的潜力，但未直言其计算成本问题。实际部署中，扩散模型的实时性仍是挑战，需依赖定制化硬件或蒸馏技术（如快手可能未公开的工程优化）。
数据标注黑箱：高质量语义分割标签是残差编码的基础，但论文未提及标注成本。业内通常采用半自动标注+人工修正的混合方案，且依赖特定数据供应商（如Scale AI等），这部分资源门槛很少公开讨论。
码率分配的潜规则：在超低码率场景下，算法会优先保留人脸/文字等人类敏感区域，而牺牲背景细节。这种策略虽符合用户体验，但通常不会在论文中明确说明，属于行业经验性调参。
竞品技术对比的隐藏信息：未直接对比VVC等传统编码器在边缘设备上的解码延迟，暗示该方案可能仍依赖云端算力，这与工业界追求的端侧部署存在潜在矛盾。
商业化落地障碍：文末强调“视频画质改善”，但未提及时序一致性处理。实际视频压缩中，帧间闪烁问题是生成模型的致命伤，需额外引入光流约束等技巧（可能作为快手内部专利未公开）。