20250706-41.对话智源院长王仲远：关于世界模型，AI与物理世界，与大模型的最前沿

原文摘要

创新应该以何种方式被规划？三年前，我曾经写下过一个中国式尝试——2023年，在中国大模型正如火如荼的时候，我曾专访过智源研究院创始理事长、美国国家工程院外籍院士张宏江博士。（👉《对话智源张宏江：功成不必在我，能成为黄埔军校很好》）

作为一家非营利机构，智源效仿 OpenAI，是一家独立于政府、商业和高校之外的新型科研机构——2018年，前微软亚洲研究院创始人之一、刚从金山 CEO 的位置上退休的张宏江主导了这一切。

在宏江博士看来，真正的科研创新需要让年轻学者在最有热忱和动力的年龄展开真正高效的学术研究——做最前沿的、敢于失败的、但值得长期投入的技术探索方向。所以，当年的智源，就坚定地喊出了，要给年轻人以舞台。

2020年，智源最早启动大语言模型「悟道」系列，为此调度大量资源，并大胆地启用年轻人。后来，大模型创业潮里的灵魂人物：唐杰、杨植麟、刘知远、黄民烈等，都曾是「悟道」项目中出现过的身影。

智源研究院，也被称作为，中国大模型的黄埔军校。

距离那一次采访已经三年过去。智源研究院经历了从大语言模型、到原生多模态世界模型的研究路线进化。而这家年轻的机构，也迎来了首位85后院长——也就是本期嘉宾，王仲远博士。

（2025北京智源大会，智源研究院院长王仲远做进展汇报。）

2018年，33岁的王仲远曾被《麻省理工科技评论》评为“35岁以下科技创新35人”中的「远见者」，理由是，他曾在知识图谱和NLP领域解决多项挑战性问题。是 AI 领域杰出的青年科学家代表。

过去近 20 年，仲远先后经历过微软、Facebook、美团、快手这四家大厂，长期从事 AI 相关研究和产业化。他的到来，也为这所年轻的研究院带来了全新的视野和氛围。在今年六月初的智源大会上，智源空前地邀请到四位图灵奖得主，并发布「悟界」系列模型，其中，多个重要项目负责人都在30岁上下。

我们的对话，就发生在智源大会后一周。在这期节目中，你将会听到：

为什么 AI 是年轻人的事业？具身智能是未来吗？

什么是世界模型？它会在通往 AGI 的路上，扮演什么样的角色？

以及，为什么让模型理解文字之外的客观世界，是一个更让人兴奋的未来？

（Ps. 本期内容后续会出文字与视频版，欢迎前往公众号「卫诗婕商业漫谈」与B站同名账号蹲蹲关注～）

本期嘉宾：

王仲远（智源研究院院长，前快手副总裁，早年曾任职于微软、Facebook、美团）

本期Shownotes：

Part 0. 前言：智源是一所什么样的机构？

04:14 智源作为一家非营利研究机构，为什么坚定地选择押注年轻人？

07:08 首位「85后」院长的诞生

08:58 为什 AI 是年轻人的事业？「年轻人没有失败」

12:31 仲远加入智源：小学三年级女孩的提问，直击我的心灵

Part 1. 关于仲远：从微软、Facebook 到美团、快手

16:50 微软要求员工，要以最高的道德标准行事

17:35 美团王兴：苦练基本功——细节抓到极致，就是基本功

19:13 什么是知识图谱？为什么仲远很快就做出了搜索结果的大幅优化？

20:48 人大孟小峰教授教会我：研究与系统并重

22:23 2010-2016，深度学习飞速发展，「我在亚研院，意识到自己与社会有些脱节」

25:27 Facebook：move fast ，break things

25:59 快与慢的哲学

31:16 同理心、 growth mindset 与「练心智」

35:32 愚昧之巅、绝望之谷、开悟之坡

Part 2.过去十多年，深度学习的发展趋势——「大一统」正在发生

41:32 2018年，企业用 Transformer 还是有争议，但深度学习已经开始要「大一统」了

42:45 Transformer 「大一统」，意味着什么？

44:50 跨模态、多模态与全模态——为什么业内人常说，此多模态非彼多模态？

48:57 越简单、统一的架构，会有越强的生命力

Part 3.智源的趋势预测：从大语言模型，到原生多模态世界模型

49:17 智源的大模型趋势预测：从语言到多模态，再到巨量智能和 AI for science，最终到世界模型

53:28 多模态数据到底能否提升大模型的智能？这在学术界和产业界是有争论的

54:45 这取决于智能的定义：动物没有语言体系，也有它们的智能

55:58 「人类的学习过程和现在大语言模型的发展路径是不一样的」

58:22 以语言为核心的大模型训练常遇到问题：加入其他模态后，模型的智能水平似乎退化了

01:01:13 「原生多模态大模型，它能够越来越接近人类的大脑」

01:02:12 智源推出的大模型系列：从「悟道」（大语言系列模型）到「悟界」（原生多模态世界模型）

（2025智源大会于北京召开，现场座无虚席。）

Part 4. 关于世界模型的争论、多样的技术路线，与智源的信仰

01:04:12 什么是世界模型？LeCun （图灵奖得主）早在2023年的智源大会就提出过，但智源信仰的世界模型路线与 LeCun 稍有不同

01:09:07 今年的智源大会上，两大图灵奖得主（Yoshua Bengio 与Richard Sutton）所信仰的技术路线针锋相对

01:11:41 仲远的技术路线预测：基于海量数据训练的基础模型打底，通过强化学习做后训练，推理的Scaling Law 还会持续

01:12:46 这条路线在现实世界有观察到：两岁的小女孩自己会拆糖果了

01:14:31 失败也是创新的一部分，智源做的是创新的「土壤」

Part 5. 具身智能、世界模型的价值与应用、以及「真开源」

01:17:25 为什么今年，具身智能特别火？

01:20:43 2025智源的两大重点：原生多模态和具身智能，为什么这么选？

01:23:01 机器人最强大脑、空间任务和智能化

01:27:21 原生多模态和具身智能模型，都是世界模型，还是都组成了世界模型？

01:27:52 Meta 的 V-Jeppa 2 登顶 HuggingFace 榜首，超越 GPT-4o，世界模型的趋势要来了？

01:29:42 智源开源的一系列大模型，被应用的情况如何？

01:32:16 仲远上任后，为什么倡导「真开源」？

Part 5. 对于未来，仲远给出哪些确定性的趋势预判？

01:34:45 OpenAI 华人研究院姚顺雨：AI 正在进入中场休息？

01:35:43 大语言模型领域的确如此，世界模型的上限还很高

01:37:41 智源能给出的确定性趋势判断：AI 将正式从数字世界迈向物理世界

01:38:02 智源要跟世界顶尖的学术研究机构掰掰手腕？

01:39:21 南坡北坡，「南坡这边风景一定会很好」

加听友群👇

有关主理人：卫诗婕，独立商业作者，曾任《极客公园》执行总编，早年任职于《人物》、GQ报道、字节跳动。代表作：《ofo的终场战事》、《罗永浩：薛定谔的理想主义》、《朱一旦的枯燥生活》、《中东社交十年风云：金矿、折戟、浪潮再起》、《下一站，沙特》等。作品曾获虎嗅2024年度作者、金字节奖年度新锐作者、网易非虚构文学奖年度作者、全球真实故事奖中文报道十佳。

有关「商业漫谈」：这是一档关注科技、商业、人文的深度访谈节目，致力于记录时代的商业史。聚焦商业趋势、伦理、竞争、价值。

原文链接

进一步信息揣测

非营利机构的创新模式：智源研究院效仿OpenAI，独立于政府、商业和高校，通过非营利模式推动前沿技术探索，这种结构在国内较为罕见，通常需要顶层资源支持（如前微软高管主导）才能规避体制内限制。
年轻化策略的隐性优势：大胆启用年轻人（如30岁左右的项目负责人）不仅降低人力成本，还能利用其“无失败包袱”的心态推动高风险创新，但需配套资源调度权（如“悟道”项目集中资源支持）。
大模型人才孵化内幕：智源被称为“中国大模型黄埔军校”，因早期参与“悟道”项目的唐杰、杨植麟等人后来成为创业核心人物，暗示机构内部存在技术-人才-商业化的隐性输送链条。
科研与产业的旋转门：王仲远从微软、Facebook到美团、快手的经历，反映AI顶尖人才在学术界与产业界频繁流动，背后可能涉及技术商业化评估、资源置换等非公开合作。
技术路线的关键转折：智源从大语言模型转向“原生多模态世界模型”，需大量跨学科协作（如具身智能），这种方向调整通常依赖内部小范围试错，而非公开讨论。
国际资源整合策略：智源大会邀请四位图灵奖得主站台，需非公开的学术人脉或利益交换（如联合研究、访问职位），这类高端资源通常不对外披露具体对接细节。
企业文化的隐性规则：微软“最高道德标准”、Facebook“move fast, break things”等理念，实际执行中可能演变为高压竞争或灰色地带操作（如数据使用边界），这些细节仅通过内部实践感知。
深度学习“大一统”的行业共识：2018年Transformer技术在企业应用仍有争议，但头部机构已预判其统一性趋势，此类技术路线决策依赖核心圈层信息（如顶尖实验室未公开的测试数据）。
失败容忍度的实操边界：尽管提倡“敢于失败”，但实际资源分配可能倾斜于短期可见成果的项目（如“悟界”模型发布），真正的长期探索需背后有稳定资金池支持。
心智成长的潜规则：王仲远提到的“愚昧之巅-绝望之谷-开悟之坡”曲线，反映高管层对人才筛选的隐性标准——能承受多次失败并自我迭代者才被委以重任。