Skip to content

$ bash 5-workspace/AI办公可视化/hooks/codex-office-sync.sh start bash: 5-workspace/AI办公可视化/hooks/codex-office-sync.sh: No such file or directory 

title: "上下文检索简介" url: "https://www.anthropic.com/engineering/contextual-retrieval" source: engineering date_scraped: "2026-03-15"

上下文检索简介

发布于 2024 年 9 月 19 日

概述

AI 模型要在特定场景中发挥作用,通常需要访问背景知识。例如,客服聊天机器人需要了解其服务企业的特定业务知识,法律分析机器人需要了解大量过往案例。

开发者通常使用检索增强生成(RAG)来增强 AI 模型的知识。RAG 是一种从知识库检索相关信息并将其附加到用户提示中的方法,能够显著提升模型的响应质量。问题在于,传统的 RAG 方案在编码信息时会丢失上下文,导致系统经常无法从知识库中检索到相关信息。

在这篇文章中,我们介绍一种能够显著改善 RAG 中检索步骤的方法。该方法称为"上下文检索"(Contextual Retrieval),使用两个子技术:上下文嵌入(Contextual Embeddings)和上下文 BM25(Contextual BM25)。该方法可以将检索失败率降低 49%,结合重排序后可降低 67%。这些改进显著提升了检索准确性,直接转化为下游任务性能的提升。

你可以使用 Claude 轻松部署自己的上下文检索方案,参考我们的 cookbook

关于直接使用更长提示的说明

有时最简单的方案就是最好的。如果你的知识库小于 200,000 个 token(约 500 页内容),可以直接将整个知识库包含在给模型的提示中,无需使用 RAG 或类似方法。

几周前,我们为 Claude 发布了提示缓存功能,使这种方法显著更快、更具成本效益。开发者现在可以在 API 调用之间缓存频繁使用的提示,延迟降低 2 倍以上,成本降低高达 90%(你可以阅读我们的提示缓存 cookbook了解其工作原理)。

然而,随着知识库增长,你需要更具扩展性的方案。这就是上下文检索发挥作用的地方。

RAG 入门:扩展到更大规模知识库

对于超出上下文窗口容量的大型知识库,RAG 是典型解决方案。RAG 通过以下步骤对知识库进行预处理:

  1. 将知识库(文档"语料库")分解为较小的文本块,通常不超过几百个 token
  2. 使用嵌入模型将这些文本块转换为编码语义的向量嵌入
  3. 将这些嵌入存储在支持语义相似度搜索的向量数据库中

运行时,当用户向模型输入查询时,向量数据库会根据与查询的语义相似度找到最相关的文本块。然后,最相关的文本块会被添加到发送给生成模型的提示中。

虽然嵌入模型擅长捕捉语义关系,但可能错过关键的精确匹配。幸运的是,有一种较旧的技术可以在这些情况下提供帮助。BM25(Best Matching 25)是一种使用词法匹配来查找精确单词或短语匹配的排序函数。对于包含唯一标识符或技术术语的查询特别有效。

BM25 基于 TF-IDF(词频-逆文档频率)概念构建。TF-IDF 衡量一个词对集合中某个文档的重要程度。BM25 通过考虑文档长度并对词频应用饱和函数来改进这一点,有助于防止常见词主导结果。

以下是 BM25 在语义嵌入失败时如何成功:假设用户在技术支持数据库中查询"错误代码 TS-999"。嵌入模型可能会找到关于错误代码的通用内容,但可能会错过精确的"TS-999"匹配。BM25 会查找这个特定文本字符串来识别相关文档。

通过使用以下步骤结合嵌入和 BM25 技术,RAG 方案可以更准确地检索最适用的文本块:

  1. 将知识库(文档"语料库")分解为较小的文本块,通常不超过几百个 token
  2. 为这些文本块创建 TF-IDF 编码和语义嵌入
  3. 使用 BM25 根据精确匹配查找顶级文本块
  4. 使用嵌入根据语义相似度查找顶级文本块
  5. 使用排序融合技术合并并去重(3)和(4)的结果
  6. 将 top-K 文本块添加到提示中以生成响应

通过利用 BM25 和嵌入模型,传统 RAG 系统可以提供更全面准确的结果,在精确术语匹配与更广泛的语义理解之间取得平衡。

这种方法允许你以经济高效的方式扩展到海量知识库,远超单个提示的容量。但这些传统 RAG 系统有一个重大局限:它们经常会破坏上下文。

传统 RAG 中的上下文难题

在传统 RAG 中,文档通常被拆分为较小的文本块以便高效检索。虽然这种方法对许多应用效果良好,但当单个文本块缺乏足够的上下文时,可能会导致问题。

例如,假设你的知识库中嵌入了金融信息集合(比如美国 SEC 文件),你收到以下问题:"ACME Corp 在 2023 年第二季度的收入增长是多少?"

一个相关的文本块可能包含文本:"公司收入较上一季度增长 3%。" 然而,这个文本块本身并未指明它指的是哪家公司或相关时间段,使得检索正确信息或有效使用信息变得困难。

上下文检索简介

上下文检索通过在嵌入("上下文嵌入")之前和创建 BM25 索引("上下文 BM25")之前,为每个文本块添加特定的解释性上下文来解决这个问题。

让我们回到 SEC 文件集合的例子。以下是文本块如何转换的示例:

original_chunk = "The company's revenue grew by 3% over the previous quarter."

contextualized_chunk = "This chunk is from an SEC filing on ACME corp's performance in Q2 2023; the previous quarter's revenue was $314 million. The company's revenue grew by 3% over the previous quarter."

值得一提的是,过去曾提出过其他使用上下文改进检索的方法。其他提案包括:向文本块添加通用文档摘要(我们进行了实验,收益非常有限)、假设文档嵌入基于摘要的索引(我们评估后发现性能较低)。这些方法与本文提出的方案不同。

实现上下文检索

当然,手动标注知识库中成千上万甚至数百万个文本块的工作量太大。为了实现上下文检索,我们求助于 Claude。我们编写了一个提示,指示模型提供简洁的、针对文本块的上下文,使用整个文档的上下文来解释该文本块。我们使用以下 Claude 3 Haiku 提示为每个文本块生成上下文:

<document>
{{WHOLE_DOCUMENT}}
</document>
Here is the chunk we want to situate within the whole document
<chunk>
{{CHUNK_CONTENT}}
</chunk>
Please give a short succinct context to situate this chunk within the overall document for the purposes of improving search retrieval of the chunk. Answer only with the succinct context and nothing else.

生成的上下文文本(通常 50-100 个 token)会在嵌入和创建 BM25 索引之前添加到文本块前面。

如果你对使用上下文检索感兴趣,可以参考我们的 cookbook开始。

使用提示缓存降低上下文检索成本

得益于我们上面提到的特殊提示缓存功能,使用 Claude 可以以低成本实现上下文检索。使用提示缓存时,你不需要为每个文本块传入参考文档。只需将文档加载到缓存中一次,然后引用之前缓存的内容即可。假设 800 token 的文本块、8k token 的文档、50 token 的上下文说明和每个文本块 100 token 的上下文,生成上下文化文本块的一次性成本为每百万文档 token 1.02 美元

方法论

我们在各种知识领域(代码库、小说、ArXiv 论文、科学论文)、嵌入模型、检索策略和评估指标上进行了实验。我们在附录 II中包含了一些我们为每个领域使用的问题和答案示例。

下图显示了使用表现最佳的嵌入配置(Gemini Text 004)并检索 top-20 文本块时,所有知识领域的平均性能。我们使用 1 减去 recall@20 作为评估指标,衡量在前 20 个文本块中未能检索到的相关文档的百分比。你可以在附录中查看完整结果——上下文化改善了我们评估的每种嵌入-来源组合的性能。

性能改进

我们的实验表明:

  • 上下文嵌入将 top-20 文本块检索失败率降低了 35%(5.7% -> 3.7%)
  • 结合上下文嵌入和上下文 BM25 将 top-20 文本块检索失败率降低了 49%(5.7% -> 2.9%)

实现考虑

实现上下文检索时,需要注意以下几点:

  1. 文本块边界: 考虑如何将文档拆分为文本块。文本块大小、边界和重叠的选择会影响检索性能。

  2. 嵌入模型: 虽然上下文检索改善了我们要测试的所有嵌入模型的性能,但某些模型可能受益更多。我们发现 GeminiVoyage 嵌入特别有效。

  3. 自定义上下文化器提示: 虽然我们提供的通用提示效果良好,但你可能通过针对特定领域或用例定制的提示获得更好的结果(例如,包含可能只在知识库中其他文档定义的关键术语词汇表)。

  4. 文本块数量: 在上下文窗口中添加更多文本块会增加包含相关信息的机会。然而,更多信息可能会分散模型注意力,因此这有限度。我们尝试传递 5、10 和 20 个文本块,发现使用 20 个是这些选项中性能最佳的(见附录比较),但值得在你的用例上进行实验。

始终运行评估: 通过向模型传递上下文化的文本块并区分什么是上下文、什么是文本块内容,可能会改善响应生成。

通过重排序进一步提升性能

在最后一步,我们可以将上下文检索与另一种技术结合,以获得更大的性能提升。在传统 RAG 中,AI 系统搜索其知识库以找到潜在相关的信息块。对于大型知识库,这种初始检索通常会返回大量文本块——有时是数百个——相关性和重要性各不相同。

重排序是一种常用的过滤技术,用于确保只有最相关的文本块被传递给模型。重排序提供更好的响应,并降低成本和延迟,因为模型处理的信息更少。关键步骤是:

  1. 执行初始检索以获取顶级潜在相关文本块(我们使用前 150 个)
  2. 将 top-N 文本块连同用户查询一起通过重排序模型
  3. 使用重排序模型根据每个文本块与提示的相关性和重要性为其评分,然后选择 top-K 文本块(我们使用前 20 个)
  4. 将 top-K 文本块作为上下文传递给模型以生成最终结果

性能改进

市场上有多种重排序模型。我们使用 Cohere 重排序器进行了测试。Voyage 也提供重排序器,但我们没有时间测试。我们的实验表明,在各个领域中,添加重排序步骤进一步优化了检索。

具体而言,我们发现重排序的上下文嵌入和上下文 BM25 将 top-20 文本块检索失败率降低了 67%(5.7% -> 1.9%)。

成本和延迟考虑

重排序的一个重要考虑因素是对延迟和成本的影响,特别是在重排序大量文本块时。因为重排序在运行时添加了额外步骤,不可避免地会增加少量延迟,即使重排序器并行对所有文本块评分。在重排序更多文本块以获得更好性能与重排序更少文本块以获得更低延迟和成本之间存在固有的权衡。我们建议在你的特定用例上尝试不同设置,以找到合适的平衡。

结论

我们进行了大量测试,比较了上述所有技术的不同组合(嵌入模型、BM25 使用、上下文检索使用、重排序器使用以及检索的 top-K 结果总数),涵盖各种不同数据集类型。以下是我们发现的总结:

  1. 嵌入+BM25 优于单独使用嵌入
  2. 在我们测试的嵌入中,Voyage 和 Gemini 效果最好
  3. 向模型传递 top-20 文本块比仅传递 top-10 或 top-5 更有效
  4. 向文本块添加上下文大大提高了检索准确性
  5. 重排序优于不重排序
  6. 所有这些优势可以叠加: 为了最大化性能提升,我们可以结合上下文嵌入(来自 Voyage 或 Gemini)与上下文 BM25,加上重排序步骤,并将 20 个文本块添加到提示中。

我们鼓励所有使用知识库的开发者使用我们的 cookbook来实验这些方法,以解锁新的性能水平。

致谢

研究和撰写:Daniel Ford。感谢 Orowa Sikder、Gautam Mittal 和 Kenneth Lien 的关键反馈,Samuel Flamini 实现 cookbook,Lauren Polansky 的项目协调,以及 Alex Albert、Susan Payne、Stuart Ritchie 和 Brad Abrams 对这篇博客文章的塑造。