20250717-用子模优化做文本选择、段落重排和上下文工程

原文摘要

当他们还在夸夸其谈上下文工程时，你一脚迈入子模优化和边际递减的理论之门

子模优化（Submodularity）是当前AI领域未被广泛讨论但极具实战价值的技术，尤其在信息检索和Agentic Search场景中，其效果可能超越主流的上下文工程技术。
文本选择（text selection）与段落重排（passage reranking）的核心挑战是解决信息冗余问题，行业内部通常通过子模优化来提取关键信息子集，而非依赖传统排序算法。
大模型token限制下的信息压缩是行业痛点，子模优化能高效筛选最具代表性的句子，避免无效token占用，这一技巧在付费课程或企业内训中才会详细展开。
开源代码库（如Jina AI的GitHub）可能隐藏高级实践细节，比如针对特定数据集的参数调优策略或未在文档中明示的边际递减效应处理技巧。
DeepResearch系统和智能体的进化依赖子模优化，但相关论文和公开资料较少，实际应用多通过私下交流（如行业闭门会议）传递经验，例如如何平衡多样性与相关性。
子模性的边际递减特性在工程中被反向利用：通过早期快速收敛、后期精细调整的策略，可大幅降低计算成本，这一方法常见于企业级优化方案。
行业内部评测标准可能与学术论文不同，比如更关注“信息密度/Token”而非单纯准确率，子模优化在此类非公开指标上表现突出。