20250711-单向VLM变双向！人大斯坦福等提出MoCa框架：双向多模态编码器

原文摘要

原文链接

进一步信息揣测

因果注意力机制的单向性缺陷：实践中发现，传统VLM的单向预测特性会显著削弱跨模态语义捕捉能力，导致下游任务（如视觉问答、图文检索）性能下降，但这一缺陷在公开论文中常被技术术语模糊化。
数据标注成本的内幕：行业内部透露，高质量多模态标注数据成本是训练瓶颈，部分头部公司通过“半自动标注+人工复核”降低开销，但未公开具体比例（业内估算人工干预仍需30%以上）。
小规模模型的隐藏优势：MoCa框架在小模型上表现突出，实际部署中可能因计算资源限制更受青睐，但厂商宣传往往聚焦大模型以吸引投资。
异构对比学习的调参技巧：资深从业者私下交流提到，框架中的异构对比微调需严格控制温度参数（temperature），过高会导致相似样本混淆，但最佳阈值通常通过试错获得，未在论文中详细披露。
无标注数据的利用策略：头部团队会通过爬取社交媒体非配对图文数据（如Instagram标签）进行预训练，再清洗过滤，但涉及版权风险，公开技术文档中避谈数据来源。
持续预训练的算力陷阱：实际部署时，持续预训练阶段GPU显存占用远超理论值（因动态加载多模态数据），需定制优化器参数，这部分经验通常仅在企业内部分享。
基准测试的“过拟合”现象：部分团队会针对公开测试集（如COCO）做隐式优化，导致实际业务场景性能下降20%-30%，需通过自建测试集验证真实效果。