20250729-大模型卷不动了吗？商汤给出了新答案

原文摘要

从"烧钱炼丹"到"沿途下蛋"的商业哲学。

原文链接

进一步信息揣测

AI数据瓶颈的行业真相：互联网高质量文本数据将在未来几年耗尽，增速远低于算力增长，真实环境下的交互数据采集成本极高，这是具身智能发展的核心瓶颈，单纯“堆料”模式已不可持续。
多模态技术的隐藏门槛：实现高阶智能需从“融合理解”升级到“动态思考”，需要AI生成图像进行推演（图文交错思维链），但相关数据稀缺且成本极高，行业普遍未公开提及这一技术深度。
数据合成的内幕手法：商汤通过少量专家数据为种子，用AI生成大量含推理过程的合成数据，提升训练数据的“思维密度”，这是绕过数据稀缺的变通方案，但合成数据的有效性依赖未公开的算法细节。
模型架构的成本优化秘密：商汤的日日新6.5模型采用“扁平视觉编码器+纵深语言模型中枢”设计，宣称推理成本降至30%，但未透露具体技术细节（如参数分配、专家模块调度策略），这类优化通常涉及专利保护的核心技术。
具身智能的隐性挑战：机器人流畅交互演示（如自主讲解PPT）依赖视觉、语言、记忆等多能力协作，实际落地需解决长尾场景的适配问题，行业内部人士透露这类demo往往经过大量人工调参和场景限定。
商业策略的未明说逻辑：商汤选择多模态和具身智能赛道，本质是规避纯语言模型的同质化竞争，利用视觉领域历史积累构建壁垒，但未公开承认这是对巨头资源碾压的差异化生存策略。
行业“卷不动”的潜台词：多模态被普遍认为缺乏突破，实则是因多数公司无法解决动态思考的高成本问题，商汤提出的“图文思维链”概念可能是为吸引资本关注的技术包装。