20250709-智谱AI发布新版VLM开源模型GLM-4.1V-9B-Thinking，引入思考范式，性能提升8倍

原文摘要

智谱AI推出GLM-4.1V-9B-Thinking视觉语言大模型，仅10B参数却在18项任务中持平甚至超越8倍参数量的Qwen-2.5-VL-72B，支持64k上下文长度、4k图像分辨率及中英文双语，开源助力研究突破。

原文链接

进一步信息揣测

RLCS（课程采样强化学习）是关键突破：GLM-4.1V-9B-Thinking的性能提升并非单纯依赖参数规模，而是通过RLCS技术实现高效训练。这种技术通常需要大量实验调参和领域经验，公开资料中极少透露具体实现细节。
小参数模型超越大模型的秘密：10B参数模型能对标72B模型，可能涉及架构优化（如稀疏注意力）、数据清洗策略（如高质量多模态数据筛选）或蒸馏技术，但官方未明确说明具体方法。
长上下文与高分辨率的工程代价：支持64k上下文和4k分辨率需要底层计算优化（如分块处理、内存管理技巧），实际部署时可能面临显存不足或延迟问题，需针对性调整推理框架。
中英文双语支持的隐藏成本：双语平衡需精心设计数据配比和词表，实践中英文数据比例、对齐质量及领域覆盖度（如学术vs.口语）直接影响效果，但开源模型可能未公开数据配方。
推理能力的“非公开训练数据”：模型在数学等领域的推理表现突出，可能依赖未公开的合成数据（如程序生成题目）或特定领域的私有数据集（如科研机构合作数据）。
开源策略背后的商业意图：开源基座模型（GLM-4.1V-9B-Base）可能旨在吸引开发者生态，而保留高阶功能（如RLCS代码）或企业版API作为盈利点。
竞品对比的潜在偏差：宣称超越Qwen-2.5-VL-72B的测试任务可能经过筛选（如避开对方优势场景），实际应用需验证跨领域泛化性。