PAIRDISTILL: 用于密集检索的成对相关性蒸馏方法

时间：2024-10-05 20:00:36浏览次数：7

在当今海量数据时代,有效的信息检索(IR)技术对于从庞大数据集中提取相关信息至关重要。近年来,密集检索技术展现出了相比传统稀疏检索方法更加显著的效果。

现有的方法主要从点式重排序器中蒸馏知识,这些重排序器为文档分配绝对相关性分数,因此在进行比较时面临不一致性的挑战。为解决这一问题,来自国立台湾大学的研究者Chao-Wei Huang和Yun-Nung Chen提出了一种新颖的方法——成对相关性蒸馏(Pairwise Relevance Distillation, PAIRDISTILL)。

PAIRDISTILL的主要研究目的是:

利用成对重排序的优势,为密集检索模型的训练提供更细粒度的区分。
提高密集检索模型在各种基准测试中的性能,包括领域内和领域外的评估。
探索一种可以跨不同架构和领域进行一致性改进的方法。

方法改进详细描述

PAIRDISTILL方法的核心思想是利用成对重排序器提供的细粒度训练信号来增强密集检索模型的训练。该方法的主要组成部分包括:

成对重排序:与传统的点式重排序不同,成对重排序同时比较两个文档,估计一个文档相对于另一个文档与查询的相关性。形式上,给定查询q和两个文档di和dj,成对重排序器估计的概率为:

这种方法通过仅建模di和dj的相对相关性来缓解校准问题。

成对相关性蒸馏:PAIRDISTILL的目标是让密集检索器模仿成对重排序器的输出分布。密集检索器预测的成对相关性分布定义为:

训练目标是最小化密集检索器和成对重排序器的成对相关性分布之间的KL散度:

https://avoid.overfit.cn/post/4e825b6cc5b44ce7962f59c873afb7e4

标签：检索,PAIRDISTILL,相关性,密集,排序,成对重
From： https://www.cnblogs.com/deephub/p/18448385

智源：LLM训练过程中的指令相关性
......
【EI检索】第五届先进材料与智能制造国际学术会议（ICAMIM 2024)
第五届先进材料与智能制造国际学术会议（ICAMIM2024)20245th InternationalConferenceonAdvancedMaterialsandIntelligentManufacturing大会时间：2024年11月01日-03日大会地点：广州大会官网：http://www.ic-icsm.com/【论文投稿】收录检索：EI +Scopus主办单位：广......
轻松掌握全球专利资源，助力您的创新之路——专利检索网站全面介绍
在如今的创新驱动时代，专利信息对于企业和个人来说都是宝贵的资源。无论您是技术研发者、市场分析员，还是知识产权专家，及时获取准确的专利信息，了解最新的技术发展趋势，都是决策中至关重要的一环。然而，许多现有的专利检索平台操作复杂、收费高昂，让不少用户望而却步。我们的专利检索......
Python和C++及MATLAB距离相关性生物医学样本统计量算法及数据科学
......
shell脚本——检索mysql数据库中得用户，如果没有就创建
#!/bin/bash#author:goujinyangset-eUSER1=mysqlsiUSER2=dbqueryUSER3=dboperUSER4=yyzcUSERS=($USER1$USER2$USER3$USER4)USER_PASS=123123#MySQL用户名和密码MYSQL_USER="root"MYSQL_PASSWORD="Root#123"#MYSQL_HOST="local......
基于SPRINTBOOT+VUE文献资料检索系统
文未可获取一份本项目的java源码和数据库参考。1选题背景随着世界一体化和经济全球化席卷世界,越来越多的高校认识到，利用信息技术的发展来改变对文档、文献的运作方法和管理模式,提高高校的管理效益和生产效益，从而提高高校经济效益，增强高校竞争力是高校发展的趋势。......
java+springboot+mysql新闻信息检索系统59739-计算机毕业设计原创定制（赠源码）
目录摘要1绪论1.1选题背景1.2研究意义1.3系统开发技术的特色1.4springboot框架21.5论文结构与章节安排32 新闻信息检索系统分析......
精通推荐算法31：行为序列建模之ETA — 基于SimHash实现检索索引在线化
1 行为序列建模总体架构2SIM模型的不足和为什么需要ETA模型SIM实现了长周期行为序列的在线建模，其GSU检索单元居功至伟。但不论Hard-search还是Soft-search，都存在如下不足：GSU检索的目标与主模型不一致。Hard-search通过类目属性来筛选历史行为，但不同类目不代表相关度低，比......
使用 LlamaIndex 进行 CRAG 开发用来强化检索增强生成
提升AI模型的准确性与可靠性©作者|NinjaGeek来源|神州问学介绍检索增强生成（RAG）彻底改变了使用大语言模型和利用外部知识库的方式。它允许模型从文档存储的相关索引数据中获取信息用以增强其生成的内容，使其更加准确和信息丰富。然而，RAG并非完全无缺。它有时会检索出不......
【连续两届IEEE出版，EI检索稳定】第四届新能源与电力工程国际学术会议（ICNEPE 2024）
第四届新能源与电力工程国际学术会议（ICNEPE2024）将于2024年11月8-10日在中国广州隆重举行。会议将遵循学术性、国际性的原则，特邀国内外电力与能源领域内的学者专家前来参会，并做出精彩的报告。会议主要围绕能源与电力工程等研究领域展开讨论。旨在为能源与电力工程领域的专家......

PAIRDISTILL: 用于密集检索的成对相关性蒸馏方法

方法改进详细描述

相关文章

赞助商

阅读排行