20250713-“其实，AI_没有新想法……只有新的数据集”

原文摘要

LLM 的四次飞跃，其实全靠数据。

原文链接

进一步信息揣测

数据质量比算法创新更重要：LLM的飞跃主要依赖新数据源的引入，而非模型架构或算法的突破。行业内部人士更关注数据清洗、标注和多样性，而非单纯追求技术名词的创新。
非公开数据源是关键竞争力：头部公司（如OpenAI、Google）通过独家合作或付费获取高质量数据（如学术论文、专业书籍、私有对话记录），这些数据通常不公开，但显著提升模型性能。
数据标注的隐性成本：标注工作需要大量人工，且涉及敏感或灰色领域（如医疗、金融数据），部分标注任务通过外包到低成本地区完成，但质量把控是核心难点。
“数据饥饿”现象：模型性能提升与数据量呈非线性关系，但达到阈值后边际效益递减。内部团队会优先挖掘垂直领域的小规模高质量数据，而非盲目扩大数据量。
数据版权灰色地带：许多LLM训练使用了未经明确授权的数据（如爬取论坛、社交媒体），法律风险被刻意淡化，但企业会通过技术手段（如差分隐私）规避追责。
行业数据垄断：特定领域（如法律、医疗）的高价值数据被少数机构控制，新玩家需支付高额费用或通过非正式渠道获取，形成隐性壁垒。
合成数据的局限性：尽管合成数据可缓解数据短缺问题，但行业内部认为其难以替代真实数据分布，过度依赖会导致模型出现“幻觉”或偏见放大。
数据飞轮效应：头部公司通过用户反馈（如ChatGPT的交互数据）持续优化模型，形成闭环，而开源模型因缺乏实时数据反馈难以匹敌。