20250709-VLA爆发！从美国RT-2到中国FiS-VLA，机器人「即知即行」的终极进化

原文摘要

原文链接

进一步信息揣测

VLA模型技术壁垒：谷歌DeepMind等头部公司已掌握离线VLA核心技术（无需联网执行任务），但未公开具体实现细节（如本地计算优化、轻量化模型架构），中小团队难以复现。
中美技术路径差异：中国FiS-VLA采用「快慢双系统」设计（可能借鉴人脑双通道理论），与美国RT-2的端到端方案形成差异化竞争，但实际部署中可能存在系统协同效率问题，业内对此争议较大。
数据获取黑箱：VLA训练依赖海量真实机器人操作数据，头部公司通过自建实验室或与制造业巨头合作获取（如Figure AI与汽车厂商的封闭数据集），普通研究者仅能使用开源仿真数据，性能差距显著。
资本暗流：硅谷VC更倾向投资已有机器人硬件基础的公司（如Physical Intelligence），纯软件团队需证明商业化落地能力（如仓储分拣场景的ROI数据），但这类内部评估指标极少公开。
人才争夺战：顶级VLA研究员年薪可达百万美元级别，常通过股权协议附加竞业条款，导致学术论文作者名单背后常有未披露的企业赞助关系。
专利陷阱：部分公司通过「潜艇专利」策略（先发表论文再突击申请专利），2024年已出现多起VLA相关技术侵权诉讼，涉及动作语义编码等基础模块。
军方背景项目：美国Skild AI被曝承接DARPA项目，其VLA技术可能优先应用于军事机器人，但公开报道中刻意淡化相关应用场景。