20250726-从DeepSeek-V3到Kimi_K2：八种现代_LLM_架构大比较

原文摘要

原文链接

进一步信息揣测

多头潜在注意力（MLA）的隐藏优势：MLA通过压缩键值张量降低内存占用的设计，虽然在推理时需要额外矩阵乘法操作，但实际测试中在长序列场景下的内存节省效果远超计算开销，尤其适合边缘设备部署，这一细节通常不会在官方文档中强调。
混合专家（MoE）的实战陷阱：DeepSeek V3的MoE实现中，专家选择策略存在“热点专家”问题（少数专家被频繁激活），需通过动态负载均衡算法优化，但相关调参技巧和阈值设置属于内部经验，公开资料中极少提及。
旋转位置编码（RoPE）的替代方案：行业内部正在试验线性位置编码与动态插值结合的变体（如ALiBi的改进版），可进一步降低长文本推理时的计算复杂度，但相关论文尚未公开发表。
KV缓存压缩的副作用：MLA的压缩-解压缩过程可能引入数值误差，在金融/医疗等敏感领域需定制量化方案（如非对称量化+误差补偿），这类工程细节通常需付费咨询或通过行业会议获取。
模型架构趋同的深层原因：主流LLM保持结构相似性实为兼容现有推理基础设施（如NVIDIA TensorRT优化库），突破性改动会导致部署成本激增，这一商业考量很少在技术讨论中明说。
分组查询注意力（GQA）的隐藏限制：GQA的组大小需与硬件内存带宽严格匹配（如A100显卡建议组大小为4），否则性能反降，此类硬件适配经验多由云服务商内部测试得出。
SwiGLU激活函数的部署隐患：部分芯片（如某些AI加速器）对SwiGLU的FP16计算支持不完善，需手动拆分为GeLU+线性层模拟，该workaround仅在厂商SDK文档中提及。