20250721-最新_AGI_暴论:强化学习的「GPT-3_时刻」实现,还需要_1_万年?

原文摘要

「复制训练」或许是一条推动 RL 模型走向通用智能的重要路径。

原文链接

进一步信息揣测

  • RL模型的“GPT-3时刻”需超长训练时间:行业内部推测,RL模型需积累相当于“数千年至上万年任务处理时间”的训练量才能突破当前瓶颈,类似语言模型在GPT-3前的困境。这一时间成本远超公开讨论的范畴。
  • 复制训练的核心是虚拟环境模拟:该技术通过让RL模型在虚拟环境中模仿真实软件操作(如浏览器、代码编辑器),但未公开的关键在于,需构建高保真、多模态的仿真环境,且可能依赖未开源的商业引擎或定制化工具链。
  • 泛化能力差的隐性解决方案:文中暗示RL模型泛化问题可通过“任务链迁移”缓解(如从浏览器操作迁移到命令行),但实际需设计复杂的中间表示层(如抽象API),这一技术细节通常仅在企业级解决方案中体现。
  • 初创公司的数据壁垒:Mechanize等公司可能已积累稀缺的“人类操作软件”行为数据集(如鼠标轨迹、快捷键序列),这类数据需付费或合作获取,且清洗成本极高,是复现实验的主要障碍。
  • 硬件资源的隐性门槛:实现复制训练需大规模分布式仿真集群(如同时运行数百万个虚拟实例),实际硬件投入可能接近千万美元级别,远超出学术机构常规预算。
  • 与强化学习传统范式的冲突:复制训练可能弱化奖励函数设计,转而依赖隐式行为克隆,这种范式转变在学术界仍有争议,但工业界已悄然采用以降低调试成本。
  • 商业化落地的时间差:尽管技术前瞻,RL模型在通用场景的落地可能仍落后语言模型3-5年,当前仅适合特定垂直领域(如自动化测试),但相关公司会刻意模糊这一局限以吸引投资。