原文摘要
LLM 的四次飞跃,其实全靠数据。
进一步信息揣测
- 数据质量比算法创新更重要:LLM的飞跃主要依赖新数据源的引入,而非模型架构或算法的突破。行业内部人士更关注数据清洗、标注和多样性,而非单纯追求技术名词的创新。
- 非公开数据源是关键竞争力:头部公司(如OpenAI、Google)通过独家合作或付费获取高质量数据(如学术论文、专业书籍、私有对话记录),这些数据通常不公开,但显著提升模型性能。
- 数据标注的隐性成本:标注工作需要大量人工,且涉及敏感或灰色领域(如医疗、金融数据),部分标注任务通过外包到低成本地区完成,但质量把控是核心难点。
- “数据饥饿”现象:模型性能提升与数据量呈非线性关系,但达到阈值后边际效益递减。内部团队会优先挖掘垂直领域的小规模高质量数据,而非盲目扩大数据量。
- 数据版权灰色地带:许多LLM训练使用了未经明确授权的数据(如爬取论坛、社交媒体),法律风险被刻意淡化,但企业会通过技术手段(如差分隐私)规避追责。
- 行业数据垄断:特定领域(如法律、医疗)的高价值数据被少数机构控制,新玩家需支付高额费用或通过非正式渠道获取,形成隐性壁垒。
- 合成数据的局限性:尽管合成数据可缓解数据短缺问题,但行业内部认为其难以替代真实数据分布,过度依赖会导致模型出现“幻觉”或偏见放大。
- 数据飞轮效应:头部公司通过用户反馈(如ChatGPT的交互数据)持续优化模型,形成闭环,而开源模型因缺乏实时数据反馈难以匹敌。