20250727-图解Transformer和MoE的差别

原文摘要

MoE架构的实战优势：虽然公开资料强调MoE的推理速度优势，但实际部署中，专家子集的选择机制（如路由器设计）对延迟的影响比理论值更敏感，尤其在长文本场景下可能出现热点专家排队现象。
路由器训练的隐藏成本：路由器的训练需要大量高质量数据标注（隐式或显式），这部分数据清洗和标注成本通常被低估，且业内常用合成数据增强的细节（如对抗样本生成策略）很少公开。
专家规模与效用的非线性关系：行业内部实验表明，专家数量超过某个阈值（如64个）后，边际收益急剧下降，但具体阈值与数据领域强相关，需通过小规模预实验确定。
动态负载均衡的工程黑科技：头部厂商会实时监控专家利用率，动态调整路由策略（如强制分流冷门专家），这类在线学习机制属于核心专利，论文中仅模糊提及。
MoE的隐藏缺陷：专家多样性不足时易出现“马太效应”（少数专家主导），需在损失函数中植入正则化项（如专家覆盖率惩罚），但具体超参设置属于企业机密。
硬件适配的潜规则：MoE在推理芯片（如TPU）上的优化需定制内存分配策略，避免专家切换时的显存抖动，这部分优化方案通常由芯片厂商直接提供，未写入开源框架。