Sigir2024 ranking相关论文速读

时间：2024-06-15 18:43:24浏览次数：27

标签：ranking Sigir2024 速读模型论文查询 ULTR query 排序

简单浏览一下Sigir2024中与ranking相关的论文。不得不说，自从LLM大热后，传统的LTR方向的论文是越来越少了，目前不少都是RAG或类似场景下的工作了，比如查询改写、rerank等。

The Surprising Effectiveness of Rankers Trained on Expanded Queries
Can Query Expansion Improve Generalization of Strong Cross-Encoder Rankers?
Unbiased Learning to Rank Meets Reality: Lessons from Baidu’s Large-Scale Search Dataset
Multi-granular Adversarial Attacks against Black-box Neural Ranking Models

The Surprising Effectiveness of Rankers Trained on Expanded Queries

对query进行改写和两个模型进行排序。大致流程：

基于LLM和相关的文档对query进行改写，丰富长尾query的信息。
- 改写时需要筛选文档中与query相关的句子。
针对长尾query，在扩充后的query上训练一个专门的排序模型；
一共有两个排序模型，分别是针对简单query的Base Ranker和困难query的Specialized Ranker。以及一个判断query是否为困难query的模型。计算文档最终的得分时，先计算query为困难query的概率，再用两个排序模型计算得分并加权作为最终得分。

Can Query Expansion Improve Generalization of Strong Cross-Encoder Rankers?

query改写在检索阶段的作用很明显，其对交互式编码器的影响几何呢？已有的一些工作表明查询扩展对弱一些的排序模型效果更好，对强的则可能有害。如何应用查询扩展才能使其提升排序模型的能力呢，论文给出了两个关键的步骤：

高质量的关键词生成。排序更关注准确性（与检索不同），因此对查询扩展的精确性要求更高，避免扩展出现语义漂移的问题。文中的做法：通过LLM生成关键词，并通过self-consistency进行筛选（简言之：生成多次，取出现频率高的）。
- 这个确实很重要。排序阶段应该尽量保持原始查询的精确性，避免改写过于发散。
最小化查询扩展的破坏性。如何将生成的关键词插入到查询中，以最小化插入后的语义漂移。实验表明，即使直插入3个关键词在原始查询的末尾也会导致精度退化。文中的做法：每个关键词分别与原查询拼接后，各自进行排序，再进行融合。

Unbiased Learning to Rank Meets Reality: Lessons from Baidu’s Large-Scale Search Dataset

终于看到一篇传统的LTR论文，自从LLM大热，传统LTR论文是少之又少了啊。（虽然感觉这篇论文有点水）

这篇论文主要基于Baidu-ULTR数据集（由WSDM Cup 2023发布），通过实验分析了目前的主流ULTR方法能否真的提升ULTR效果。论文中主要考虑了位置偏差，直接看结论：

在该数据集上（后续同理），ULTR方法的提升甚微；
语言模型的训练对ULTR方法敏感；
ULTR或许能提高点击，但可能与人工标注不一致。

Multi-granular Adversarial Attacks against Black-box Neural Ranking Models

这篇论文主要提出了一种对文档添加不同粒度的扰动，来提高文本排序模型的鲁棒性。论文将添加不同粒度的扰动看作一个序列决策的问题，以强化学习的方式构建扰动直至最优的扰动，过程：

准备好一个代理排序模型，评估文档的相关性，一个LLM，评估文本的流畅度；
多粒度攻击者由两部分组成：sub-agent通过代理排序模型识别文档中脆弱的攻击位置和扰动粒度，meta-agent负责生成实际的扰动。
最终的目标：最大化扰动后文本的相关性以及流畅度。

文中比较关键的是基于强化学习的多粒度攻击者，主要是攻击位置的识别。这个论文有点意思，或许可以用到提升训练数据质量上。

标签：ranking,Sigir2024,速读,模型,论文,查询,ULTR,query,排序
From： https://www.cnblogs.com/gzyatcnblogs/p/18249606

最新区块链论文速读--CCF A会议 CCS 2023 共25篇附pdf下载（3/4）
Conference：ACMConferenceonComputerandCommunicationsSecurity(CCS)CCFlevel：CCFACategories：networkandinformationsecurityYear：2023Num：25第1~7篇区块链文章请点击此处查看第8~13篇区块链文章请点击此处查看14Title: FuzzontheBeach:FuzzingSo......
AI论文速读 | 2024[KDD]GinAR—变量缺失端到端多元时序预测
题目：GinAR:AnEnd-To-EndMultivariateTimeSeriesForecastingModelSuitableforVariableMissing作者：ChengqingYu（余澄庆）,FeiWang（王飞）,ZezhiShao（邵泽志）,TangwenQian,ZhaoZhang,WeiWei（魏巍）,YongjunXu（徐勇军）机构：中科院计算所，华中科技大学arXiv网址：https......
阿里重排论文PRM 《Personalized Re-ranking for Recommendation》
和DLCM做法类似，都是使用序列模型对rank后的结构做rerank，不同点是PRM使用了transformencoder来建模，并且使用了用户预训练向量和位置向量最后一层使用了softmax来计算每个item被点击的概率（论文提到使用click作为label，也就是所存在多个label为1的情况，不知道有没有做什么特殊处理），并......
区块链论文总结速读--CCF A会议 USENIX Security 2024 共7篇附pdf下载
Conference：33rdUSENIXSecuritySymposiumCCFlevel：CCFACategories：网络与信息安全Year：2024Num：71Title: PracticalSecurityAnalysisofZero-KnowledgeProofCircuits零知识证明电路的实用安全分析Authors: HongboWen, UniversityofCalifornia,Santa......
【论文速读】LLM-Augmented Retrieval:EnhancingRetrievalModels Through LanguageMod
论文链接：https://arxiv.org/html/2404.05825v1文章标题：LLM-AugmentedRetrieval:EnhancingRetrievalModelsThroughLanguageModelsandDoc-LevelEmbedding这篇文章提出了一种与检索模型无关的框架框架，通过大型语言模型来丰富文档的嵌入，显著提高了现有检索模型的性......
【模板】快速读入
1inlineintread()2{3intw=0,s=1;4charch=getchar();5while(ch<'0'||ch>'9')6{7if(ch=='-')s=-1;8ch=getchar();9}10while(ch>='0'&&ch<='9')11{12w=w*10+ch......
【论文速读】| 对大语言模型解决攻击性安全挑战的实证评估
本次分享论文为：AnEmpiricalEvaluationofLLMsforSolvingOffensiveSecurityChallenges基本信息原文作者：MinghaoShao,BoyuanChen,SofijaJancheska,BrendanDolan-Gavitt,SiddharthGarg,RameshKarri,MuhammadShafique作者单位：纽约大学、纽约大学阿布扎比......
C105 整体二分+树状数组 P2617 Dynamic Rankings
视频链接：C105整体二分+树状数组P2617DynamicRankings_哔哩哔哩_bilibili C96树状数组套权值线段树P2617DynamicRankings-董晓-博客园(cnblogs.com)C104【模板】整体二分+树状数组P3834可持久化线段树2-董晓-博客园(cnblogs.com)LuoguP2617Dynamic......
SD card高速读写记录
苯人原创，排版很差，爱看不看。SD卡有好几种总线协议，包括SD总线协议，SPI协议，UHS-II协议和PCIe协议。还有两种接口，一种是八个触点的，这种卡包括低速卡和高速UHS-I卡。另一种是多了几个触点的UHS-II接口，这种是支持更高速的UHS-II协议的高速卡。注意区分协议和接口以及传输模式。本文主......
PAT甲 1025 PAT Ranking
题目：1080GraduateAdmission-PAT(AdvancedLevel)Practice(pintia.cn) 测试点4出现段错误，其他过了，找不出来哪里有问题。准备把别人代码复现一遍。其他：1、排序函数要用&引用传参，不然会超时```在排序函数中使用引用传递可以避免不必要的对象拷贝，从而提高排序的......

Sigir2024 ranking相关论文速读

The Surprising Effectiveness of Rankers Trained on Expanded Queries

Can Query Expansion Improve Generalization of Strong Cross-Encoder Rankers?

Unbiased Learning to Rank Meets Reality: Lessons from Baidu’s Large-Scale Search Dataset

Multi-granular Adversarial Attacks against Black-box Neural Ranking Models

相关文章

赞助商

阅读排行