20250725-同样1GB文本，为何中文训练效果差？对话EleutherAI研究员Catherine，看懂多语言模型

原文摘要

停止对大模型的盲目崇拜！多语言AI的瓶颈在于字节，而非参数

字节溢价（byte premium）是关键瓶颈：多语言模型中，相同字节数的文本在不同语言中的"有效信息密度"差异显著，这直接影响模型输入效率，而非参数规模。这一发现挑战了"参数越多性能越好"的行业共识。
小模型可能优于大模型：1亿参数的Goldfish模型在部分测试中超越80亿参数的Llama-8B，说明盲目堆参数并非最优解，语言结构适配性比参数规模更重要。
非英语语种存在隐藏数据偏见：主流多语言模型的训练数据中，非英语语种的字节效率常被低估，导致模型对这些语言的处理能力被系统性削弱。
语言学背景的跨界价值：研究者精通多语言（尤其是汉语等非拉丁语系）的实际经验，比纯技术背景更能发现语言结构对模型的深层影响。
行业潜规则：开放协作的阻力：尽管研究者倡导开放共享，但实际中大厂更倾向封闭技术（如未开源的Llama），因多语言优化涉及语种资源壁垒和商业竞争。
轻量化模型的商业潜力：小模型在边缘计算和低成本部署场景的优势被低估，这可能颠覆当前以大模型为核心的商业模式。
文化多样性影响模型公平性：语言结构差异背后隐含文化差异，现有评估基准（如以英语为中心设计的测试集）会掩盖模型对弱势语种的真实表现。