从稀疏表征出发、召回方向的前沿探索

从稀疏表征出发、召回方向的前沿探索_召回

作者 | lhy12138

导读
目前百度大搜主要有基于稀疏表征的倒排检索和稠密表征的语义检索双路召回。随着深度学习技术的发展，语义检索的召回效果得到了显著提高；与此同时，因为稀疏表征有着精确匹配、索引效率和可解释的优势，最近学术界重新将目光放回稀疏表征架构，研究稀疏表征如何从大规模语言模型中获益。本文将介绍学术界在倒排召回和语义召回的最新进展。
全文6386字，预计阅读时间16分钟。

01 搜索中的召回

召回一般会从海量候选库中选择与query相关的文档送给上层排序模块，因为效率原因，往往无法执行query-url细粒度交互。目前召回主要有基于term的传统倒排召回和基于向量表征的语义召回。本文将介绍两个方向在学术届的一些最新进展。

02 如何看待语义召回和传统倒排召回的关系?

随着预训练模型和样本技术的更新，语义召回表现了强大的检索效果，而传统倒排技术因为成本、效率问题并没有获得效果的显著提高。倒排召回基于term归并，因此具有较强的可解释性；而语义召回在向量空间搜索与query语义最相似的文档，对语义的表达能力更强。应该如何看待两者在召回链路上的关系呢？

Are We There Yet? A Decision Framework for Replacing Term Based Retrieval with Dense Retrieval Systems

这篇论文提出了一套框架，包括一组指标（不仅从效果出发），彻底比较两个检索系统。

主要标准（效果/成本）以及次要标准（robustness）：

次要标准：子问题集合的效果（如长度在某个范围的q、频率在某个范围的q、lexical匹配的能力、模型的泛化能力、决策显著差异比例、甚至是系统可维护性、未来迭代空间、成本）

最终论文在一个检索评估集上给出了相应的结论：即在向量化成本可接受的前提下，语义召回系统可以替代倒排召回系统。而在实际工业界对应的问题往往更为复杂，但论文提出的分析框架正是我们需要重新审视和思考的内容。

BEIR: A heterogenous benchmark for zero-shot evaluation of information retrieval models

这篇论文对学术界现有检索相关数据集进行汇总，从各个领域汇总了不同下游任务中对检索能力的需求，以全面地评估现有召回模型的效果。

从稀疏表征出发、召回方向的前沿探索_稀疏表示_02

从稀疏表征出发、召回方向的前沿探索_召回_03

从表格可以看到一些有意思的结论：在zero-shot的场景下，BM25是一个非常健壮的检索系统。基于term细粒度语义交互的两种方法（colbert/BM25+CE）仍然表现了一致的优越性。但稀疏表征和稠密表征的双塔模型似乎表现不佳。同时观察到doc2query是一个稳定的提升，因为它只会扩展词，更像是对BM25的合理性改动，检索方式和打分逻辑与BM25一致。同时作者也提到，数据集存在词汇偏差问题：标注候选来自于BM25检索，因此可能对不依赖词汇匹配的模型存在好结果的漏标注问题，对新召回结果标注后：

从稀疏表征出发、召回方向的前沿探索_稀疏表示_04

其中语义召回模型（如ANCE）指标显著提高。

通过以上两篇论文发现，不管是倒排召回还是语义召回在不同场景下有着自己独立的优势，因此我们在后文会针对两个方向分别介绍相关进展。

03 倒排召回新发展

如果想通过现有技术促进倒排发展，我们有哪些可以尝试的方案？

04 语义召回新发展

语义召回虽然具有强大的语义能力，但在实践中仍然存在以下几类问题（包括但不限于）：

单表征信息表达能力弱。
无法对精确匹配进行建模。
多表征如何保证表征的有效性

单表征信息压缩问题：

Simlm: Pre-training with representation bottleneck for dense passage retrieval.

出发点：

减少预训练和finetune的不一致，提高样本效率，希望cls尽可能编码doc中的信息。

做法：

1.随机mask两遍原始序列，利用生成器还原两个新的序列。

从稀疏表征出发、召回方向的前沿探索_稀疏表示_27

2.对于enc序列，利用多层transformer编码，获得句子级别CLS表示，其中loss约束为当前词是否发生过替换。

从稀疏表征出发、召回方向的前沿探索_预训练模型_28

3.对于dec序列，使用2层transformer编码编码整个序列及enc序列的句子表示，同样loss约束为当前词是否发生过替换。

从稀疏表征出发、召回方向的前沿探索_稀疏表示_29

由于dec序列仅使用2层transformer，因此迫使句子级别cls信号需要捕捉原始enc序列更多的语义信息。

从稀疏表征出发、召回方向的前沿探索_预训练模型_30

精确匹配问题：

Salient Phrase Aware Dense Retrieval: Can a Dense Retriever Imitate a Sparse One?

出发点：dense retrieval在词语匹配和低频实体不如稀疏方法，希望能具有稀疏模型的词汇匹配能力，模拟稀疏retrieval。

思想：利用稀疏teacher蒸馏到dense retrieval（模仿模型），再和正常的dense retrieval concat。

从稀疏表征出发、召回方向的前沿探索_召回_31

实践经验：

稀疏teacher蒸馏到模仿模型时，mse和kl loss未能起作用。最终使用稀疏teacher来生成pos和neg，使用常规对比损失来做样本级蒸馏而非soft-label蒸馏效果更佳。
同时尝试将模仿作为dense的热启模型，但效果一般，因此选择两个表示联合训练，尝试了求和/concat以及freeze模仿模型只更新dense模型和加权系数的方案。

从稀疏表征出发、召回方向的前沿探索_稀疏表示_32