20250725-Qwen3-“SmVL”：超小中文多模态LLM的多模型拼接微调之路

原文摘要

SmolVLM2与Qwen3-0.6B微调生成Qwen3-SmVL，小规模、多模态、支持中文。冻结主干，训练连接层和模型头，用the Cauldron验证性能，保留原功能，性能提升。

模型拼贴技术实践：通过冻结主干网络（如Qwen3-0.6B）仅微调连接层和模型头，可显著降低训练成本并保留原模型功能，适合资源有限的小团队。
硬件选择内幕：使用国产GPU（如沐曦）进行微调可能涉及性价比考量或政策支持（如国产化替代），但需注意兼容性和驱动优化问题。
性能验证工具：提及的“the Cauldron”可能是内部测试框架或未公开的基准工具，行业标准测试集（如MMLU）可能无法完全反映实际场景需求。
多模态实现捷径：直接拼接视觉模块（SmolVLM2）与语言模型（Qwen3）的关键在于对齐嵌入空间，需经验性调整连接层维度，公开论文中较少提及具体参数。
中文支持优化：Qwen3本身的中文能力可能依赖特定数据清洗或tokenizer调整，微调时需加入高质量中文多模态数据（如爬取的中文图文对）。
开源策略：完整Github仓库的发布可能隐含商业意图（如吸引合作或人才），但需警惕未完全开源的“黑箱”部分（如数据处理代码）。
小规模模型优势：超小模型（0.6B）在边缘设备部署时有成本优势，但需牺牲部分精度，行业内部常通过量化或蒸馏进一步压缩。