20250717-109._机器人遭遇数据荒？与谢晨聊：仿真与合成数据、Meta天价收购和Alexandr_Wang

原文摘要

今天又是一集机器人专场。嘉宾是光轮智能创始人兼CEO谢晨，他曾在英伟达、Cruise及蔚来汽车担任自动驾驶仿真负责人。我们的话题非常具体，即:仿真与合成数据。

今天的具身智能尚且没有找到scaling law的有效配方，其中，数据是一个关键卡点。我们106集的嘉宾银河通用创始人王鹤就提到，真实数据在他们的训练数据比重仅仅1%，合成数据挑起大梁。

今天这集节目，我与谢晨聊了聊仿真与合成数据的实操细节。

02:00 开始的快问快答

02:48 高频词汇解析：Sim2Real（从仿真到现实）、Sim2Real的gap、合成数据

04:31 从Cruise到英伟达到蔚来，怎么做合成数据和仿真？

14:11 制作合成数据的具体流程？合成数据与真实数据的配比？

16:17 在合成数据上，智能驾驶和具身智能的区别（智能驾驶是视觉的游戏，具身智能的物理交互最关键）

32:41 物理的Real2Sim（真实到仿真）工作流是怎样的？怎么评估成功的仿真？关键技术节点？

46:18 Physical Intelligence（π）对仿真与合成数据的两难态度

48:55 辣评Meta 300亿美金收购Scale AI和极其aggressive的Alexandr Wang

53:57 合成数据目前面临的瓶颈

55:25 全球具身智能产业链Mapping：

硬件公司（宇树）

基座模型公司（π、Skild、英伟达和DeepMind）

在垂域落地的软硬结合公司（Figure，特斯拉Optimas、The Bot Company）

以仿真为中心做端到端落地的公司（光轮）

（“特斯拉Optimas的管理文化和π完全不一样”）

01:09:22 美国存在具身模型层的创业机会，中国在我看来字节、小米、理想更适合做“大脑”

01:15:33 老黄在内部说：NV is a simulation company

01:21:25 终局的模型应该是是跨宇宙、跨世界、跨本体（提升跨宇宙的能力，本质是提升泛化性）

01:23:28 具身智能的产业还在GPT-1阶段，还没找到scaling law的配方

01:28:21 我创业刚开始，从具身的本科开始学起

01:37:37 最后的快问快答

【机器人专场】

逐篇讲解机器人基座模型和VLA经典论文——“人就是最智能的VLA”

和王鹤聊，具身智能的学术边缘史和资本轰炸后的人为乱象

原文链接

进一步信息揣测

合成数据在具身智能中的核心地位：真实数据仅占训练数据的1%，合成数据承担了主要训练任务（银河通用案例），说明行业已高度依赖仿真技术解决数据稀缺问题。
Sim2Real的隐性挑战：仿真与现实的差距（Sim2Real gap）是关键技术瓶颈，尤其在具身智能领域，物理交互的仿真精度比视觉仿真更难实现（智能驾驶更侧重视觉，而具身智能需解决物理引擎的逼真度）。
物理仿真技术的内幕：Real2Sim（真实到仿真）工作流涉及复杂参数校准，成功仿真的评估标准未公开，可能依赖企业自建的黑盒测试体系。
行业巨头布局策略：英伟达内部定位为“仿真公司”（老黄原话），暗示其通过Omniverse等工具垄断仿真底层设施；Meta计划300亿美金收购Scale AI，反映合成数据标注平台已成为战略资源。
中美产业分工差异：美国具身智能创业集中在模型层（如π、Skild），而中国更适合字节、小米等大厂做“大脑”（基座模型），因硬件整合和场景落地需强资源支持。
特斯拉与π的文化冲突：Optimus团队管理风格与π（Physical Intelligence）截然不同，可能指向特斯拉更注重工程迭代，而π偏向学术化探索。
合成数据的付费壁垒：高质量合成数据生成依赖专业工具链（如光轮的仿真平台），中小企业可能需付费购买或合作，否则难以达到工业级精度。
行业阶段判断：具身智能仍处于“GPT-1阶段”，尚未找到类似大语言的scaling law配方，当前技术路线存在试错成本高的风险。
跨宇宙泛化的终极目标：头部公司（如英伟达、DeepMind）已布局跨世界、跨本体的仿真能力，本质是通过多环境训练提升模型泛化性，但技术细节未公开。
创业者的学习路径：具身智能领域创业者需从基础物理交互学起（如谢晨自述“从本科开始学”），说明行业门槛极高，经验积累无法速成。