首页 > 其他分享 >促进通用跨域检索中广义知识的模拟

促进通用跨域检索中广义知识的模拟

时间:2024-11-12 12:45:36浏览次数:1  
标签:检索 跨域 UCDR 提示 ProS 模拟

促进通用跨域检索中广义知识的模拟

ProS:促进通用跨域检索中广义知识的模拟

通用跨域检索(UCDR)的目标是在广义测试场景中实现稳健的性能,其中数据在训练过程中可能属于严格未知的域和类别。最近,具有快速调整的预训练模型显示出很强的泛化能力,并在各种下游任务中取得了显著成就,如少镜头学习和视频文本检索。然而,将它们直接应用于UCDR可能不足以处理域转换(即适应不熟悉的域)和语义转换(即转移到未知的类别)。为此,提出了Prompting To Simulate(ProS),这是应用UCDR快速调优的第一种方法。ProS采用两步过程来模拟内容感知动态提示(CaDP),该提示可以影响模型,为UCDR生成通用特征。具体来说,在提示单元学习阶段,引入了两个提示单元,以掩码和对齐的方式分别捕获领域和语义知识。然后,在上下文感知模拟器学习阶段,在模拟测试场景下训练一个内容感知提示模拟器,以生成相应的CaDP。在三个基准数据集上进行的广泛实验表明,新方法在不引入过多参数的情况下实现了最新的性能。新方法已公开,可参考相关代码网址。

跨域检索(CDR)及其广义版本(UCDR),不同骨干网和各种基于提示的方法比较,如图3-5所示。

 

图3-5 跨域检索(CDR)及广义版本(UCDR),不同骨干网和各种基于提示的方法比较

在图3-5中,(a)跨域检索(CDR)及其广义版本(UCDR)的说明。(b)ProS与UCDR协议下,不同骨干网和各种基于提示的方法△的比较。所有基于提示的方法都

使用CLIP作为骨干。新方法取得了实质性的改进,并在性能和可训练参数使用与最新技术之间实现了更好的权衡。

新方法ProS方案如图3-6所示。

 

图3-6 新方法ProS方案概述

在图3-6中,在提示单元学习阶段,通过屏蔽无关提示,将源数据中的知识捕获到域提示单元DP和语义提示单元SP中。在上下文感知提示模拟阶段,使用掩码操作训练一个上下文感知提示模拟器(CaPS),将提示模板PT动态传递给两个内容感知动态提示(CaDP),以模拟未知域和类别。在检索阶段,使用CaPS生成CaDP,该CaDP影响CLIP图像编码器,将看不见的样本转换为合适的嵌入以进行检索。灰色部分表示屏蔽提示。

 

标签:检索,跨域,UCDR,提示,ProS,模拟
From: https://www.cnblogs.com/wujianming-110117/p/18541595

相关文章

  • 任天堂强势打击Switch模拟器 Ryujinx官网已被掌控
    任天堂针对Switch模拟器的打击行动持续升级!继今年2月对Yuzu模拟器提起诉讼并获得240万美元赔偿后,近日又成功迫使Ryujinx模拟器项目关闭,并已掌控Ryujinx官网域名。10月1日,Ryujinx模拟器开发者gdkchan在其官方Discord频道发布声明,称任天堂与其达成协议,要求其停止项目开发并......
  • 优化RAG索引策略:多向量索引与父文档检索技术
    引言在RAG(检索增强生成)系统中,索引策略直接影响检索的效率和准确性。本文将深入探讨两种先进的索引优化技术:多向量索引和父文档检索,以及一种高级的RAG优化策略——RAPTOR。这些技术能够显著提升RAG系统的性能,尤其是在处理长文档和复杂查询时。多向量索引技术多向量索引的概念多......
  • 模拟鼠标真人移动轨迹算法-易语言
    一.简介鼠标轨迹算法是一种模拟人类鼠标操作的程序,它能够模拟出自然而真实的鼠标移动路径。鼠标轨迹算法的底层实现采用C/C++语言,原因在于C/C++提供了高性能的执行能力和直接访问操作系统底层资源的能力。鼠标轨迹算法具有以下优势:模拟人工轨迹:算法能够模拟出非贝塞尔曲线......
  • RAG检索性能提升实践:混合检索与自查询技术详解
    引言在RAG(检索增强生成)系统中,检索性能直接影响着最终的生成质量。本文将深入探讨两种先进的检索优化技术:混合检索和自查询检索。这些技术能显著提升检索的准确性和灵活性,为RAG系统带来实质性的性能提升。混合检索技术详解混合检索的核心原理混合检索通过集成多种检索算法,充分......
  • RAG 应用优化策略:从文档处理到检索技巧
    引言RAG(检索增强生成)应用的性能很大程度上取决于文档处理、分割策略和检索方法的优化。本文将系统地介绍RAG应用的各个环节优化策略,帮助开发者构建更高效的RAG系统。文档预处理优化非分割类型的文档转换器1.问答转换器(QATransformer)问答转换器可以将文档转换为问答对的......
  • 多人语音1V1语音的婚恋系统该如何设置设置跨域访问?
    在构建多人语音及1V1语音的婚恋系统时,设置跨域访问是一个重要的技术环节,它涉及到前后端数据的交互和不同源之间的请求处理。以下是一些关于如何设置跨域访问的建议:一、理解跨域访问的基本概念跨域访问是指浏览器出于安全考虑,限制了一个源(协议、域名、端口三者之一不同)对另一......
  • 2024华为OD机试真题---中文分词模拟器
    华为OD机试中的中文分词模拟器题目,通常要求考生对给定的不包含空格的字符串进行精确分词。这个字符串仅包含英文小写字母及英文标点符号(如逗号、分号、句号等),同时会提供一个词库作为分词依据。以下是对这类题目的详细解析一、题目描述给定一个连续不包含空格的字符串Q,该字......
  • LangChain 向量存储与检索技术详解
    引言在RAG(检索增强生成)应用中,向量存储和检索是连接文档处理和LLM生成的关键环节。本文将深入探讨LangChain中的向量存储和检索技术,包括常用的向量数据库、嵌入模型以及高效的检索策略。向量存储基础向量存储是将文本转换为高维向量并进行存储和检索的技术。在RAG应用中,......
  • 细节解析 JavaScript 中 bind 函数的模拟实现
    大家的阅读是我发帖的动力,本文首发于我的博客:deerblog.gu-nami.com/,欢迎大家来玩,转载请注明出处喵。......
  • NOIP2024模拟赛#18 总结
    头要炸了。T1题面很好懂,手玩了一下发现答案最小是\((m-1)\timesn\)。可能会多出来一个长度为\(k\)的部分,会发现如果多出来一个长度为\(k\)的部分且合法,那么单个串\(1\simk\)位与\(n-k+1\simn\)位一定相同,\(k+1\simn\)位与\(1\simn-k\)一定相同。Hash判一下即......