20250708-Gemini_2.5_Pro_负责人：最强百万上下文，做好了能解锁很多应用场景

原文摘要

在百万级上下文质量还不完美时，追求更长地上下文意义不大。

盲目追求长上下文的陷阱：当前百万级token上下文模型的质量尚未达到理想状态，过早追求更长的上下文（如千万级）可能带来资源浪费，而实际效果提升有限。行业内部更倾向于先优化现有上下文质量，而非单纯扩展长度。
内存类型的实战区别：模型内存分为in-weights memory（固化权重，难修改）和in-context memory（动态上下文，易更新）。短上下文模型的瓶颈在于信息源之间会争夺有限的注意力资源，导致关键信息丢失。这一技术细节通常只有深度研究者才会关注。
RAG与长上下文的协同内幕：行业真实场景中，长上下文不会取代RAG（检索增强生成），而是分工合作——RAG负责快速粗筛海量数据，长上下文负责深度处理。选择策略取决于延迟要求：实时交互需短上下文，容忍延迟时用长上下文以提高召回率。
成本与规模的前瞻判断：千万级token上下文将成为未来标准配置，尤其在AI编码领域可能引发革命。但这一趋势依赖成本下降，暗示当前大规模部署仍受限于算力开销，属于付费级或企业级资源才能触及的领域。
实践中的优先级取舍：谷歌DeepMind团队透露，当前研究重点并非无限拉长上下文，而是提升现有百万级上下文的准确性和稳定性。这反映了行业从“堆参数”到“优化效果”的隐性转向。