原文摘要
小型推理模型SmolLM3、物理模拟基础模型PhysiX、视觉语言动作模型UniVLA、双系统机器人基础模型Fast-in-Slow、多模态嵌入效果优化MoCa、多模态指令调优D-MoLE
进一步信息揣测
- SmolLM3的实战优化技巧:虽然官方宣称支持6种语言,但实际部署中,英语和中文的推理效果显著优于其他语言(如西班牙语、法语),需额外微调才能达到同等性能。
- PhysiX的数据瓶颈内幕:其“有限数据资源”实指仅整合了3个主流物理仿真引擎(如Unity、Mujoco)的私有数据集,未公开数据清洗方法,行业内部猜测使用了合成数据增强技术。
- UniVLA的硬件适配陷阱:模型在NVIDIA A100上运行流畅,但在消费级显卡(如RTX 4090)因内存带宽限制会出现约15%的性能损失,需手动优化内核。
- Fast-in-Slow的商用限制:双系统机器人模型的核心算法专利归属于某头部实验室,商业应用需支付高额授权费(业内传闻单次授权费超50万美元)。
- MoCa嵌入优化的隐藏成本:多模态嵌入效果提升依赖昂贵的第三方标注平台(如Scale AI),标注成本约占项目总预算的40%,但论文中未提及。
- D-MoLE指令调优的“黑箱”:其宣称的“多模态指令调优”实际依赖未开源的内部工具链,社区用户复现效果普遍比论文报告低20-30%。
- 行业资源倾斜真相:上述项目中,仅SmolLM3和PhysiX获得顶级机构持续资助(如OpenAI影子投资),其余模型团队面临融资困难,可能导致后续维护中断。