ES相关性（_score）

时间：2024-07-21 10:30:15浏览次数：10

什么是相关性

相关度是指两个事物间相互关联的程度，在检索领域特指检索请求与检索结果之间的相关程度。默认情况下，返回结果是按相关性倒序排列的。但什么是相关性？相关性如何计算？

每个文档都有相关性评分，用一个正浮点数字段 _score 来表示。 _score 的评分越高，相关性越高。

查询语句会为每个文档生成一个 _score 字段。评分的计算方式取决于查询类型不同的查询语句用于不同的目的： fuzzy 查询会计算与关键词的拼写相似程度，terms 查询会计算找到的内容与关键词组成部分匹配的百分比，但是通常 relevance 是用来计算全文本字段的值相对于全文本检索词相似程度的算法。

Elasticsearch 的相似度算法被定义为检索词频率/反向文档频率， TF/IDF ，包括以下内容：

检索词频率

检索词在该字段出现的频率？出现频率越高，相关性也越高。字段中出现过 5 次要比只出现过 1 次的相关性高。

反向文档频率

每个检索词在索引中出现的频率？频率越高，相关性越低。检索词出现在多数文档中会比出现在少数文档中的权重更低。

字段长度准则

字段的长度是多少？长度越长，相关性越低。检索词出现在一个短的 title 要比同样的词出现在一个长的 content 字段权重更大。
相关性并不只是全文本检索的专利。也适用于 yes|no 的子句，匹配的子句越多，相关性评分越高。

如果多条查询子句被合并为一条复合查询语句，比如 bool 查询，则每个查询子句计算得出的评分会被合并到总的相关性评分中。

ES的应用

ES中相关性评分的应用很广泛，最常见的应用就是搜索引擎中，将最相关的链接展示在最前面，其次还有一些应用：

推荐系统中的用户最爱：每个用户的喜好不一致，对喜好字段设置更高权重，由ES打分并推荐最相关商品文档
风控系统中的团伙挖掘：对团伙各相关字段（手机号相同、地址相同等）设置权重，并由ES打分获取最相关的团伙文档
实时日志检索：基于ELK架构，以关键字作为评分依据，搜索最相关日志文档

标签：检索,TF,score,词频,相关性,IDF,文档,ES
From： https://www.cnblogs.com/beatle-go/p/18314219

Spring Resources 入门
1.介绍Resources是Spring框架中的一个核心模块，用于处理资源文件的访问。它提供了一种方便的方式来访问不同类型的资源，如文件、类路径下的资源、网络上的资源等。Spring提供了统一的资源访问机制，使得开发者可以更加方便地操作各种资源。接下来让我们来学习关于Resource......
使用.loc切片时Series为空
我想获取Q1到Q9之间的项目。我使用.loc对系列对象进行切片：s.loc['Q1':'Q2']但是它返回一个空系列。Series([],dtype:object)通常，我应该返回['Q1','Q2','Q3','Q4','Q5','Q6','Q7'......
Codeforces Round 960 (Div. 2) 补题记录（A~D）
打的稀烂，但是还是上分了（A考虑对值域做一个后缀和。若某一个后缀和的值是奇数那么先手就可以获胜。否则就不可以获胜。（我才不会告诉你我这题吃了一次罚时的）#pragmaGCCoptimize(3)#include<bits/stdc++.h>#defineintlonglongusingnamespacestd;intmysqrt(intx){......
使用 pyodbc 将数据插入 MS Access 时无法在 Excel 文件中找到“Sheet1”
我正在尝试使用pyodbc将Excel文件中的数据插入到MSAccess数据库中，但我不断遇到错误，指出在Excel文件中找不到“Sheet1”。这是我的代码：importpyodbcfilename='ALC_2022068_06282024-testingcopy.xlsx'sql=r"""INSERTINTOtblALC_test([dateofnotice],[pro......
我的 RandomForestRegressor 上的 MAE 和 MSE 非常高
我得到了一个航班预测数据集，我想尝试一下我的机器学习技能。我清理了数据并修复了一些新功能并删除了其他功能我还得到了一些有价值的数据。但是当我尝试做出预测并评估我的模型时这就是我得到的答案！那是在我用SearchGridCV调整我的模型之后Regressionmetricsonthe......
除了curses之外，是否有一个python包可以轻松控制终端的输出？
我现在正在处理一些小项目，我对GUI的偏好是终端中漂亮的文本界面。我宁愿不强迫用户处理Windowscurses二进制文件，所以我正在寻找不同的选项。我已经发现了asciimatics，但我想考虑所有可能的选择。如果有人有任何经验或知道解决此用例的包，我将不胜感激。谢谢你说的没错......
Django makemessages 重复翻译
我有现有的.po文件，但我仍在构建我的项目，因此添加了新的翻译字符串，并且一些已添加的翻译字符串正在更改位置。要更新我正在运行的.po文件django-adminmakemessages-len当我打开文件时我发现相同的翻译重复了很多次：#:_templates/admin-users/base/partials/sid......
如何修改conftest中的参数化值并将它们传递给pytest中的多个测试用例
问题：假设一个流程需要10个步骤才能完成。我一一开始该过程的步骤，在这些步骤之间，我想做出不同的断言。每次断言后，我都会继续执行其余步骤。我希望每个断言都作为测试用例发生。所以如果有5个断言，我需要5个测试用例。如果有2组参数化值，那么我需要每组进行5次断言，因此将......
当值来自函数 python unittest 时，如何模拟全局变量
我必须在python中模拟全局变量，但变量值来自另一个函数。当我导入文件时，这个函数正在运行，但我想要那里的模拟值。secrets.pyimporttracebackimportloggingimportboto3importosimportjsonlogger=logging.getLogger()logger.setLevel(logging.INFO)secret_......
使用 requests 包 python 时打开文件太多
我正在使用Pythonrequests包向API发出大量请求。然而，在某些时候，我的程序由于“打开的文件太多”而崩溃。当我明确关闭我的会话时，我真的不知道这是怎么回事。我使用以下代码：importrequestsimportmultiprocessingimportnumpyasnps=requests.session()s.keep......

ES相关性（_score）

什么是相关性

相关性算法

ES的应用

相关文章

赞助商

阅读排行