20250709-智谱AI发布新版VLM开源模型GLM-4.1V-9B-Thinking,引入思考范式,性能提升8倍

原文摘要

智谱AI推出GLM-4.1V-9B-Thinking视觉语言大模型,仅10B参数却在18项任务中持平甚至超越8倍参数量的Qwen-2.5-VL-72B,支持64k上下文长度、4k图像分辨率及中英文双语,开源助力研究突破。

原文链接

进一步信息揣测

  • RLCS(课程采样强化学习)是关键突破:GLM-4.1V-9B-Thinking的性能提升并非单纯依赖参数规模,而是通过RLCS技术实现高效训练。这种技术通常需要大量实验调参和领域经验,公开资料中极少透露具体实现细节。
  • 小参数模型超越大模型的秘密:10B参数模型能对标72B模型,可能涉及架构优化(如稀疏注意力)、数据清洗策略(如高质量多模态数据筛选)或蒸馏技术,但官方未明确说明具体方法。
  • 长上下文与高分辨率的工程代价:支持64k上下文和4k分辨率需要底层计算优化(如分块处理、内存管理技巧),实际部署时可能面临显存不足或延迟问题,需针对性调整推理框架。
  • 中英文双语支持的隐藏成本:双语平衡需精心设计数据配比和词表,实践中英文数据比例、对齐质量及领域覆盖度(如学术vs.口语)直接影响效果,但开源模型可能未公开数据配方。
  • 推理能力的“非公开训练数据”:模型在数学等领域的推理表现突出,可能依赖未公开的合成数据(如程序生成题目)或特定领域的私有数据集(如科研机构合作数据)。
  • 开源策略背后的商业意图:开源基座模型(GLM-4.1V-9B-Base)可能旨在吸引开发者生态,而保留高阶功能(如RLCS代码)或企业版API作为盈利点。
  • 竞品对比的潜在偏差:宣称超越Qwen-2.5-VL-72B的测试任务可能经过筛选(如避开对方优势场景),实际应用需验证跨领域泛化性。