20250729-大模型卷不动了吗?商汤给出了新答案

原文摘要

从"烧钱炼丹"到"沿途下蛋"的商业哲学。

原文链接

进一步信息揣测

  • AI数据瓶颈的行业真相:互联网高质量文本数据将在未来几年耗尽,增速远低于算力增长,真实环境下的交互数据采集成本极高,这是具身智能发展的核心瓶颈,单纯“堆料”模式已不可持续。
  • 多模态技术的隐藏门槛:实现高阶智能需从“融合理解”升级到“动态思考”,需要AI生成图像进行推演(图文交错思维链),但相关数据稀缺且成本极高,行业普遍未公开提及这一技术深度。
  • 数据合成的内幕手法:商汤通过少量专家数据为种子,用AI生成大量含推理过程的合成数据,提升训练数据的“思维密度”,这是绕过数据稀缺的变通方案,但合成数据的有效性依赖未公开的算法细节。
  • 模型架构的成本优化秘密:商汤的日日新6.5模型采用“扁平视觉编码器+纵深语言模型中枢”设计,宣称推理成本降至30%,但未透露具体技术细节(如参数分配、专家模块调度策略),这类优化通常涉及专利保护的核心技术。
  • 具身智能的隐性挑战:机器人流畅交互演示(如自主讲解PPT)依赖视觉、语言、记忆等多能力协作,实际落地需解决长尾场景的适配问题,行业内部人士透露这类demo往往经过大量人工调参和场景限定。
  • 商业策略的未明说逻辑:商汤选择多模态和具身智能赛道,本质是规避纯语言模型的同质化竞争,利用视觉领域历史积累构建壁垒,但未公开承认这是对巨头资源碾压的差异化生存策略。
  • 行业“卷不动”的潜台词:多模态被普遍认为缺乏突破,实则是因多数公司无法解决动态思考的高成本问题,商汤提出的“图文思维链”概念可能是为吸引资本关注的技术包装。