首页 > 其他分享 >ES基本查询

ES基本查询

时间:2023-05-11 11:00:20浏览次数:41  
标签:基本 匹配 title 查询 文档 ES query match

  • 基本匹配模式:

  ES支持的查询语法中的匹配模式比较多,主要包括以下几种:

  1. term查询:精确匹配,不会分词。
  2. terms查询:精确匹配多个值。
  3. match查询:对字段进行全文本搜索并分词,允许模糊匹配。
  4. match_phrase查询:对字段进行短语全文本搜索,要求匹配的词条必须按照原始文本顺序相邻出现。
  5. prefix查询:对字段进行前缀搜索。
  6. regexp查询:使用正则表达式匹配。
  7. wildcard查询:使用通配符进行模糊匹配。
  8. range查询:对数值、日期等范围进行匹配,包括大于、小于、大于等于、小于等于、等于等。
  9. exists查询:匹配指定字段存在的文档。
  10. bool查询:将其他查询进行逻辑组合,包括must、must_not、should、filter等。
  11. nested查询:查询嵌套文档中的字段。
  12. fuzzy查询:支持单词拼写错误的匹配。
  13. geo查询:查询地理坐标范围内的文档。
  14. ids查询:根据指定的文档ID进行匹配。
  15. span查询:一系列用于匹配词语之间距离或顺序的查询,包括span_term、span_multi等。

  以上是ES支持的一些常见的查询语法中的匹配模式,不同的查询语法和匹配模式可以组合使用,以实现更复杂的查询。

 

  给出每一个匹配模式的示例:

  1. term查询:
  { "query": { "term": { "age": 18 } } }
  1. terms查询:
  { "query": { "terms": { "age": [18, 19] } } }
  1. match查询:
  { "query": { "match": { "title": "elasticsearch" } } }
  1. match_phrase查询:
  { "query": { "match_phrase": { "content": "elasticsearch tutorial" } } }
  1. prefix查询:
  { "query": { "prefix": { "name": "jo" } } }
  1. regexp查询:
  { "query": { "regexp": { "name": "joh?n" } } }
  1. wildcard查询:
  { "query": { "wildcard": { "name": "j*hn" } } }
  1. range查询:
  { "query": { "range": { "age": { "gte": 18, "lte": 25 } } } }
  1. exists查询:
  { "query": { "exists": { "field": "age" } } }
  1. bool查询:
{ "query": { "bool": { "must": [ { "match": { "title": "elasticsearch" } }, { "match": { "content": "tutorial" } } ] } } }

这样写也正确:
{ "query": { "must": [ { "match": { "name": "elasticsearch" } }, { "match": { "content": "搜索引擎" } } ] } } 

举个bool查询的复杂示例:
{
  "query": {
    "bool": {
      "must": [
        {
          "bool": {
            "should": [
              {
                "match": {
                  "title": {
                    "query": "elasticsearch"
                  }
                }
              },
              {
                "match": {
                  "content": {
                    "query": "elasticsearch"
                  }
                }
              }
            ]
          }
        },
        {
          "bool": {
            "should": [
              {
                "match": {
                  "title": {
                    "query": "tutorial"
                  }
                }
              },
              {
                "match": {
                  "content": {
                    "query": "tutorial"
                  }
                }
              }
            ]
          }
        },
        {
          "bool": {
            "should": [
              {
                "match": {
                  "title": {
                    "query": "beginner"
                  }
                }
              },
              {
                "match": {
                  "content": {
                    "query": "beginner"
                  }
                }
              }
            ]
          }
        }
      ],
      "must_not": [
        {
          "match": {
            "category": {
              "query": "A"
            }
          }
        }
      ],
      "filter": {
        "term": {
          "author": "John"
        }
      },
      "minimum_should_match": 2
    }
  }
}
  这个查询使用了三个bool查询套嵌,每个bool查询都使用should子句将title和content字段与关键词匹配,然后用must子句将三个bool查询组合起来,要求至少匹配两个关键词。使用must_not子句排除类别为A的文章,使用filter子句限制作者为John。

  1. nested查询:
  { "query": { "nested": { "path": "comments", "query": { "match": { "comments.author": "john" } } } } }
  1. fuzzy查询:
  { "query": { "fuzzy": { "name": { "value": "john", "fuzziness": 2 } } } }
  1. geo查询:
  { "query": { "bool": { "must": { "match_all": {} }, "filter": { "geo_distance": { "distance": "10km", "pin.location": { "lat": 40, "lon": -70 } } } } } }
  1. ids查询:
  { "query": { "ids": { "values": ["1", "2", "3"] } } }
  1. span查询:
  { "query": { "span_near": { "clauses": [ { "span_term": { "field": "quick" } }, { "span_term": { "field": "brown" } }, { "span_term": { "field": "fox" } } ], "slop": 3, "in_order": false } } }

  简单地解释一下这些示例的含义:

  1. term查询:查询age字段的值为18的文档,这里不会分词,只对整个字段进行精确匹配。

  2. terms查询:查询age字段的值为18或19的文档,这里可以同时对多个值进行匹配。

  3. match查询:对title字段进行全文本搜索并分词,查找包含单词"elasticsearch"的文档。
  1. match_phrase查询:对content字段进行短语全文本搜索,要求匹配的词条必须按照原始文本顺序相邻出现,查找包含短语"elasticsearch tutorial"的文档。

  2. prefix查询:查询name字段以"jo"开头的文档。

  3. regexp查询:使用正则表达式查找name字段中匹配"joh?n"模式的文档,这里"?"表示匹配前面字符0次或1次。

  4. wildcard查询:使用通配符查找name字段中匹配"jhn"模式的文档,这里""表示匹配0个或多个任意字符。

  5. range查询:查询age字段大于等于18小于等于25的文档。

  6. exists查询:查询存在age字段的文档。

  7. bool查询:将两个match查询组合,必须同时满足两个条件才能匹配。

  8. nested查询:查询包含特定作者("john")的一篇文章的评论。

  9. fuzzy查询:查找name字段拼写跟"john"相似的文档,这里"fuzziness"表示允许编辑的最大距离为2(即可以通过2次编辑变成"john")。

  10. geo查询:查找距离经纬度为(40,-70)坐标不超过10km的地理位置文档。

  11. ids查询:查找ID为1、2、3的文档。

  12. span查询:查询包含短语"quick brown fox"的文档的数量,这里"slop"表示相邻单词的最大距离为3。

 

  • filtermust都是bool查询中的查询子句,它们的作用不同:

filter查询与must查询类似,都用于对查询进行过滤和匹配。但不同的是,filter不计算查询得分并且可以使用缓存,它是用于过滤大量数据的一个非常有效的机制,通常用于在水平方向上增加查询效率。它可以和其他查询子句(例如mustshouldmust_not)一起使用,如果多种查询子句一起使用,则必须满足所有的mustfilter语句,而should则只需满足其任意一个。例如:

 

{
  "query": {
    "bool": {
      "filter": {
        "range": {
          "price": {
            "gte": 100,
            "lte": 1000
          }
        }
      },
      "must": [
        {
          "match": {
            "title": "elasticsearch"
          }
        }
      ]
    }
  }
}

  上述查询用到了filtermust两个查询子句,它首先使用filter子句过滤出价格在[100,1000]区间的文档,然后再在这个结果中使用must查询子句匹配title字段中的"elasticsearch",从而得到我们需要的结果。

 

 

must查询用于执行多个查询的布尔“与”操作,并结合各查询子句的结果进行打分排序。这意味着必须满足must查询子句中的所有条件才能使文档获得更高的得分并返回。例如:

{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "user": "kimchy"
          }
        },
        {
          "match": {
            "title": "elasticsearch"
          }
        }
      ]
    }
  }
}

上述查询中,两个match查询子句的查询结果都必须为真,才能匹配到符合条件的文档,两个查询条件是“与”的关系。在实际使用中,我们要根据不同的需求选择不同的查询子句来处理查询,尽可能提高查询效率和准确性。如果在查询的大多数操作中使用了filter,通常推荐在其他查询中使用`must,这样可以带来更快的查询性能。

 

 

  • 相关性得分计算在 Elasticsearch 中非常复杂,在这里简单介绍一下简单模式下的得分计算方法。

match查询为例,需要考虑的因素有文档中查询关键字在也出现的域的数量、文档中出现查询关键字的频率、查询关键字在一个域中的重要性、查询关键字在所有文档中出现的频率等。Elasticsearch为每个索引分配一个默认的相关性评分器,该评分器使用了基于TF-IDF(词频-逆文档频率)算法的BM25算法计算文档得分。BM25考虑了词项的频度、文档长度等因素,并通过对文档长度进行归一化处理来对文档的“重要性”进行加权。

简而言之,BM25算法计算文档得分的大致方式如下:

  1. 计算查询中每个词的TF-IDF得分
  2. 对于每个查询词,则通过考虑所有包含这个词的文档计算文档频率(IDF)
  3. 计算查询与文档中每个匹配的词项之间的匹配度(term frequency)。匹配度用于调整词项的重要性,即一些重要的关键词应该有更高的权值。
  4. 计算文档得分,再将文档得分与其他相关性评分算法产生的得分相加,获得最终的文档评分。

  BM25算法实现了一种有效地对文档打分的方法,能够准确地反映查询与文档之间的相关性。通过修改算分公式和相关性评分器,甚至可以更好地优化该算法,以满足不同场景的需求。

假设我们有一个文档,它包含下面这些字段:

{ "title":"Elasticsearch 入门", "content":"这是一篇关于 Elasticsearch 入门的文章,用以介绍 Elasticsearch 的基本特性、查询语法和常见应用场景" }

 

假设我们进行下面这个查询:

GET /my_index/_search { "query": { "bool": { "should": [ { "match": { "title": "elasticsearch" } }, { "match": { "content": "elasticsearch" } } ] } }, "sort": { "_score": "desc" } }

 

Elasticsearch会计算所有匹配到的文档与查询之间的相关性得分。假设在上面的示例中,"elasticsearch"在title字段和content字段中都出现了一次,那么我们可以使用BM25算法来计算相关性得分。

假设我们参数配置为k1 = 1.2、b = 0.75、avgdl=9、idf=1、tf=1在。那么对上述文档进行评分时,BM25算法的基本公式如下:

score(D,Q) = IDF × (tf(Q_i,D) × (k1 + 1)) / (tf(Q_i,D) + k1 * (1 - b + b * (doc_len/avgdl)))

其中score(D,Q) 表示文档D和查询Q之间的相关得分,IDF是词项的逆向文档频率,tf(Q_i,D) 表示词项Q_i出现在文档D中的频率,k1 和 b 是两个参量,avgdl 表示所有文档的平均长度。

我们可以通过填入合适的参数来计算该文档的相关得分,得到最终的评分结果。在实际中,Elasticsearch 会根据文档的长度、查询的倒入、各种噪声词筛选、参数调整等多种因素对得分公式进行优化,结果的细节也比简化版更加复杂,涉及到更多的数学和算法知识。

  • IDF(Inverse Document Frequency)表示逆文档频率,用于衡量一个词的重要程度。IDF 值越大,则表示该词的重要性越高,因此文档中包含该词的相关得分就越高。

IDF 的计算方式是,首先统计所有文档中包含该词的文档数,再用总文档数除以包含该词的文档数,得到一个标量,再对其取对数得到 IDF。

具体来讲,IDF 的计算公式为:

IDF = log( (total_number_of_documents+1) / (number_of_documents_containing_term + 1) )

其中total_number_of_documents表示总文档数,number_of_documents_containing_term表示包含该词的文档数。

需要注意的是,IDF 值的计算是基于总文档数的,而不是查询中的文档数。IDF 值越大,表示该词的重要程度越高,因此文档中包含该词的相关得分就越高。

例如,假设我们有一个包含 10,000 篇文档的索引,其中包含 1,000 篇文档包含词语"elasticsearch",那么"elasticsearch"的 IDF 值就是:

IDF = log((10000+1)/(1000+1)) = 1.38629

 

以下是一个根据相关性得分排序的示例,假设我们的索引中有两篇文档,它们的内容如下:

[ { "title": "Elastic Stack入门指南", "content": "在本文中,我们将介绍如何使用Elastic Stack处理和分析日志数据。Elastic Stack是一组功能强大且易于使用的开源工具,被广泛应用于日志分析、安全分析、网络分析、指标分析等各种场景。" }, { "title": "如何使用Elasticsearch进行全文搜索", "content": "Elasticsearch是一个分布式的搜索引擎,它非常适合处理大量的结构化和非结构化数据,尤其是文本数据。在本文中,我们将介绍如何使用Elasticsearch进行全文搜索,包括构建索引、查询语法、相关性得分等方面的内容。" } ]

 

我们的目标是搜索所有包含“全文搜索”的文档,然后将它们根据相关性得分从高到低进行排序。我们可以使用以下查询:

GET my_index/_search { "query": { "multi_match": { "query": "全文搜索", "fields": ["title", "content"] } }, "sort": [ { "_score": { "order": "desc" } } ] }

 

在这个查询中,我们使用了multi_match查询,将查询关键字“全文搜索”在title字段和content字段中的匹配都纳入了考虑范围,它们将被视为在进行排序时一起考虑的两个独立的查询条件。使用相关性得分对搜索结果进行排序,文档将按照相关性得分从高到低进行排序,得分高的文档将排在前面。我们在查询中使用了_score字段进行排序,Elasticsearch将根据每个文档与查询之间的相关性得分来计算它们的排名。

 

假设第一篇文档的相关性得分为1.5,第二篇文档的相关性得分为1.0。那么最终排序后的结果将是:

[ { "title": "如何使用Elasticsearch进行全文搜索", "content": "Elasticsearch是一个分布式的搜索引擎,它非常适合处理大量的结构化和非结构化数据,尤其是文本数据。在本文中,我们将介绍如何使用Elasticsearch进行全文搜索,包括构建索引、查询语法、相关性得分等方面的内容。", "_score": 1.5 }, { "title": "Elastic Stack入门指南", "content": "在本文中,我们将介绍如何使用Elastic Stack处理和分析日志数据。Elastic Stack是一组功能强大且易于使用的开源工具,被广泛应用于日志分析、安全分析、网络分析、指标分析等各种场景。", "_score": 1.0 } ]

 

可以看到,我们得到了符合预期的结果,根据相关性得分将包含“全文搜索”的文档排序输出。

 

  • multi_match是Elasticsearch中一个可以同时对多个字段进行搜索的查询语句。它常用于针对同一关键字对多个字段进行搜索,并将多个字段的搜索结果合并起来。

multi_match查询可以使用各种类型的匹配询子句,比如matchmatch_phraseprefixwildcard等,在进行多个字段的查询时,还可以为每个字段指定不同的查询类型。在multi_match语句中,查询条件会被自动扩展到所有的索引字段中,不需要为每个字段单独写一个match子句。

以下是一个multi_match查询的示例,通过同时针对两个字段进行搜索:

GET my_index/_search { "query": { "multi_match": { "query": "elasticsearch 入门", "fields": ["title", "content"] } } }

 

在这个示例中,我们将查询关键字 "elasticsearch 入门" 在 "title" 和 "content" 两个字段中搜索。由于没有指定任何查询类型,Elasticsearch会自动为这两个字段选择一个合适的查询类型。

当我们想要在搜索结果中使用相关性得分对结果进行排序时,通常会使用以下类似的查询:

GET my_index/_search { "query": { "multi_match": { "query": "elasticsearch 入门", "fields": ["title", "content"] } }, "sort": [ { "_score": { "order": "desc" } } ] }

 

在这个查询中,我们将multi_match查询和sort排序语句组合起来,按照相关性得分从高到低进行排序(使用了_score字段),相关性得分高的文档将排在前面。

 

标签:基本,匹配,title,查询,文档,ES,query,match
From: https://www.cnblogs.com/jixiegongdi/p/17390423.html

相关文章

  • Qt QTimer::singleShot用法
    [static]voidQTimer::singleShot(intmsec,constQObject*receiver,constchar*member)这个静态函数在一个给定时间间隔msec(毫秒)之后调用一个槽。用法1:假设类A有个槽函数function(){}我们要在10s之后执行它就可以: QTimer::singleShot(10*1000,this,&A::func......
  • ts的4.9属性之satisfies
    interfacePalette{red:number[];green:string;blue:number[];black?:boolean;}typeColors='red'|'green'|'blue';typeRGB=[number,number,number];constpalette={red:[255,0,0],g......
  • 第二章、操作系统基本原理
    第一节.操作系统概述操作系统与计算机体系结构之间的关系: 操作系统具备的管理职能:1.进程管理:(1)进程的状态;(2)前趋图;(3)PV操作;(4)死锁问题。2.存储管理:(1)段页式存储;(2)页面置换算法。3.文件管理:(1)索引文件;(2)位示图4.作业管理5.设备管理:数据传输控制方式6.微......
  • vue node报错ERESOLVE unable to resolve dependency tree
    解决:ERESOLVEunabletoresolvedependencytree小张不厌学于2022-08-2517:00:44发布30549收藏102文章标签:npmvue.js前端版权华为云开发者联盟该内容已被华为云开发者联盟社区收录加入社区NPM版本问题报错的解决方案在安装项目依赖时,很大可能会遇到安装不成功的问题......
  • AtCoder Beginner Contest 234 Ex Enumerate Pairs
    洛谷传送门AtCoder传送门把每个点分到\((\left\lfloor\frac{x}{K}\right\rfloor,\left\lfloor\frac{y}{K}\right\rfloor)\)的正方形内,枚举相邻正方形,计入答案。正确性显然。复杂度证明就是所有每个正方形内距离为\(K\)的点对下界为\(\Omega(n^2)\)。考虑分成四个边长为......
  • Python打包exe,执行报player组件缺失“File "plyer\facades\notification.py", line
    之前的打包方式:pyinstaller--onefile--windowedpythonfilename.py执行exe报错:修改打包命令:pyinstaller--onefile--windowed--hidden-importplyer.platforms.win.notificationpythonfilename.py执行新的exe,正常弹窗,错误消失,win10toast组件实现类似功能,打包也......
  • Linux克隆-Rescuezilla
    一、介绍  Rescuezilla与Clonezilla完全兼容,Clonezilla是一种开源的磁盘映像解决方案。两种解决方案之间的主要区别之一是Rescuezilla具有图形用户界面,应该使某些用户更容易使用。二、下载https://github.com/rescuezilla/rescuezilla/releases/download/2.4.2/rescuez......
  • wordpress 为自定义类型文章新增自定义字段
    wordpress强大之处在于有很强的可自定义性,使得插件、主题的开发变得及其便利。就拿我们今天要说的自定义文章添加自定义字段来说,就很便捷。        比如我们要录入一个客户信息到wordpress中,那么需要的字段可不仅仅是什么标题、内容、摘要这么简单了,我们可能需要录入客户......
  • # Codeforces Round 872 (Div. 2) 题解
    CodeforcesRound872(Div.2)题解A.LuoTianyiandthePalindromeString略B.LuoTianyiandtheTable略C.LuoTianyiandtheShow略D1.LuoTianyiandtheFloatingIslands(EasyVersion)题意在树上随机撒\(k(k\leq3)\)个关键点,规定一个点是好的当且仅当这个......
  • 该模型基于id=0控制 ,通过电机的基本数学模型对其定子电阻R, 永磁磁链ψf, dq轴电感Ls进
    该模型基于id=0控制,通过电机的基本数学模型对其定子电阻R,永磁磁链ψf,dq轴电感Ls进行递推最小二乘法辨识,仿真结果表明了该方法的有效性ID:8330669177527757......