20250724-端侧时代，更快更省的_RWKV_架构是下一个_Transformer_吗？_S9E25

原文摘要

自从 ChatGPT 横空出世，几乎所有关于大模型的讨论都离不开 Transformer，那 Transformer 架构也支撑了这一轮生成式 AI 的快速发展。然而在 Transformer 架构的背后，行业也遇到了难以回避的瓶颈：推理和训练成本居高不下，长上下文能力依赖庞大的显存和算力，端侧部署和商业落地困难。Transformer 的困境让神经网络的另一条路径重新被审视——那就是RNN，循环神经网络。
今天我们请到的嘉宾，是元始智能的联合创始人和 COO 罗璇。他与另一位创始人彭博一起持续的探索基于循环神经网络的可扩展架构 RWKV。RWKV 架构能否在 Transformer 面临的核心问题上提供一种替代方案？新的架构是否给端侧模型的发展带来更多更大的机会？今天我们将和罗璇一起，从底层架构的设计出发，聊聊 RWKV 的可扩展性、下一代大模型可能的走向，以及端侧 AI 的机会与未来。

本期人物
罗璇，元始智能联合创始人兼 COO
Yaxian，「科技早知道」主播

主要话题
03:30 训练效率低、Scaling law 见顶，成本高昂，Transformer 的瓶颈催生新架构的探索
08:15 高效并行、低复杂度，易端侧部署，RWKV 为 Transformer 提供了可替代方案
13:24 新型 RNN 与 Attention 混合模型就像油电混动车，但纯电才是大模型的未来
17:07 大厂押注新架构：基于 RWKV 架构的模型已达到 70B 激活参数
23:47 突破算力、内存和功耗限制，RWKV 天生适合端侧部署
26:24 未来 80% 的 AI 计算将在端侧，巨头尚未涉足的增量市场才是创业公司的机会
32:35 端侧机会有哪些？空间计算或是下一个风口
38:20 RWKV 的「ChatGPT」时刻将至：新架构对 AGI 的实现必不可少

延伸阅读
RNN（Recurrent Neural Network）
即循环神经网络，是一类专为处理序列数据设计的深度学习架构。它的核心机制是「循环」：当前时刻的输出不仅依赖于当前输入，还受到上一个时刻隐藏状态的影响，因此 RNN 具备记忆历史信息的能力。但经典的 RNN 也存在梯度消失/梯度爆炸、训练难以并行化和难以扩展至大模型规模等问题。RWKV 是一种结合 RNN 和 Transformer 优势的神经网络架构。

Mamba 架构
是一个专为高效处理长文本而设计的线性时间复杂度模型架构，它通过状态空间模型（State Space Model, SSM）实现类似 RNN 的信息传递方式，但比传统 RNN 更强、比 Transformer 更快。

LSTM（Long Short-Term Memory）
是一种改进版的 RNN 架构，全称为「长短期记忆网络」。是一种具有“记忆控制能力”的循环神经网络，能够有效建模长期依赖关系，是 RNN 在深度学习时代的关键进化版本。

MoE 模型
MoE（Mixture of Experts，专家混合模型）是一种通过多个子网络（专家）组成的架构，每次仅激活其中一部分以提升计算效率与模型容量。它通过「按需使用」不同专家，实现高效推理与更强的任务适应能力。

XR（Extended Reality）
指扩展现实，是虚拟现实（VR）、增强现实（AR）和混合现实（MR）的统称，用于描述融合现实与数字内容的交互体验。

幕后制作
监制：Yaxian
后期：迪卡
运营：George
设计：饭团

商业合作
声动活泼商业化小队，点击链接直达声动商务会客厅，也可发送邮件至 business@shengfm.cn 联系我们。

🌍「Knock Knock 世界」特别节目上线！
上周更新了三期解读。聊了聊 AI 为什么会「出错」、飞机「退役」后会去向哪里，以及伊朗声称要封锁霍尔木兹海峡，这个海峡跟我们日常生活有哪些关联。现在就去节目主页一探究竟吧 ↓
小宇宙听友请点这里
Apple Podcast 听友请点这里

加入声动活泼
声动活泼目前开放开放人才发展伙伴岗、市场部门岗位（节目运营、社群运营、内容营销）和 BD 经理等职位，详情点击招聘入口

关于声动活泼
「用声音碰撞世界」，声动活泼致力于为人们提供源源不断的思考养料。
我们还有这些播客：声动早咖啡、声东击西、吃喝玩乐了不起、反潮流俱乐部、泡腾 VC、商业WHY酱、跳进兔子洞、不止金钱
欢迎在即刻、微博等社交媒体上与我们互动，搜索 声动活泼 即可找到我们。
期待你给我们写邮件，邮箱地址是：ting@sheng.fm

欢迎扫码添加声小音，在节目之外和我们保持联系。

Special Guest: 罗璇.

原文链接

进一步信息揣测

Transformer架构的隐性成本问题：虽然Transformer支撑了生成式AI的快速发展，但其推理和训练成本极高，且长上下文处理依赖庞大显存和算力，这些成本通常不会在公开宣传中强调，但实际是行业落地的关键瓶颈。
RNN路径的复兴内幕：因Transformer的瓶颈，行业内部开始重新审视RNN架构（如RWKV），尤其是其低复杂度和端侧部署优势，这可能是大厂未公开押注的技术方向。
RWKV架构的隐藏优势：RWKV结合RNN和Transformer的优点，支持高效并行训练和低内存占用，适合端侧部署，但公开讨论较少提及其对商业落地的实际影响（如降低中小公司接入门槛）。
大厂对新架构的暗中布局：基于RWKV的模型已做到70B参数规模，说明头部企业可能在低调探索替代方案，而非仅依赖Transformer，但公开技术路线中仍以Transformer为主。
端侧AI的增量市场机会：未来80%的AI计算可能在端侧完成，但巨头尚未全面涉足，创业公司有机会抢占这一未被充分竞争的领域（如空间计算）。
混合模型的过渡性质：业内将RNN与Attention的混合比作“油电混动车”，暗示当前技术是过渡方案，纯Attention或更优架构（如RWKV）才是长期方向，但公开讨论常回避技术路线的争议性。
RWKV的AGI潜力：RWKV可能接近其“ChatGPT时刻”，即突破性应用节点，这一判断基于未公开的测试数据或内部进展，而非主流学术讨论。
端侧部署的隐性门槛：RWKV的算力、内存和功耗优化使其“天生适合端侧”，但实际部署中可能涉及芯片适配、模型压缩等未公开的工程难题。
Mamba架构的竞争内幕：Mamba作为线性时间复杂度的RNN变体，可能比Transformer更快，但行业对其实际性能的讨论有限，存在技术路线竞争的信息不对称。
MoE模型的资源分配策略：MoE通过“按需激活专家”提升效率，但未公开讨论的是其动态负载均衡对硬件资源的隐性要求，可能影响商业化成本。