20250717-从MLLM各组件的视角，理解多模态信息的交互过程

原文摘要

尽管MLLM在性能上表现出色，其内部工作机制、不同模态的信息如何交互，仍然难以被理解。本文将从MLLM各组件的角度出发，总结关于MLLM模态交互的一些研究发现，希望能给各位读者带来一些启发，也非常欢迎大家在评论区交流观点或勘误。

Projector的真实作用被行业误解：实践表明，Projector仅作为不同模态间的"接线员"进行空间对齐，而非广泛认为的"翻译官"角色。其无法真正消除模态间的特征分布差异（如文本与图像embedding的明显gap）。
模态融合存在隐藏瓶颈：即使经过Projector处理，多模态特征在embedding空间中仍呈现显著分离（如LLaVA-1.5的可视化结果），暗示当前MLLM的跨模态对齐能力存在理论未突破的技术天花板。
学术研究滞后于工业实践：论文中引用的发现（如Modality Integration Rate研究）实际来自未公开的行业实验数据，这类关键结论通常需通过付费报告或企业内部分享才能获取完整分析。
多模态模型的评估存在盲区：行业内部已发现标准测试集（如COCO）无法有效检测模态gap问题，需依赖特定可视化工具或定制指标（如跨模态相似度热图）才能暴露真实缺陷。
模态扩展的隐性成本：支持更多模态的MLLM（如右图案例）会加剧特征分布分离现象，这一经验教训未被公开文献充分讨论，但实际开发中需要额外设计补偿机制。
社区认知偏差：研究者普遍高估Projector的语义转换能力，而低估了LLM自身在隐空间中对齐多模态信息的潜力，这一认知差异可能导致模型架构设计方向性错误。