通过DSL实现Elasticsearch数据搜索功能

标签：算分文档查询 DSL score 搜索 query Elasticsearch match

DSL查询分类

查询所有：查询出所有数据，一般测试用。例如：match_all
全文检索（full text）查询：利用分词器对用户输入内容分词，然后去倒排索引库中匹配。例如：
- match_query
- multi_match_query
精确查询：根据精确词条值查找数据，一般是查找keyword、数值、日期、boolean等类型字段。例如：
- ids
- range
- term
地理（geo）查询：根据经纬度查询。例如：
- geo_distance
- geo_bounding_box
复合（compound）查询：复合查询可以将上述各种查询条件组合起来，合并查询条件。例如：
- bool
- function_score

全文检索查询
常见的全文检索查询包括：

match查询：单字段查询
multi_match查询：多字段查询，任意一个字段符合条件就算符合查询条件

无条件查询全部

点击查看代码

GET /indexName/_search
{
  "query": {
    "match_all": {}
  }
}

2. match查询：单字段查询

点击查看代码

GET /hotel/_search
{
  "query": {
    "match": {
      "name": "如家"
    }
  }
}

3. multi_match查询：多字段查询，任意一个字段符合条件就算符合查询条件

点击查看代码

GET /hotel/_search
{
  "query": {
    "multi_match": {
      "query": "上海如家",
      "fields": ["brand","business","name"]
    }
  }
}

match和multi_match的区别是什么？ - match：根据一个字段查询 - multi_match：根据多个字段查询，参与查询字段越多，查询性能越差

如何避免multi_match查询字段过多导致的性能问题？

使用copy_to关键字，将需要查询的字段设置到一个统一的字段即可。
示例：

在新建索引的时候添加一个字段，在把该字段使用copy_to关键字设置到其他字段中即可。

精准查询
term：根据词条精确值查询

点击查看代码

GET /hotel/_search
{
  "query": {
    "term": {
      "city": {
        "value": "北京"
      }
    }
  }
}

范围查询
range：根据值的范围查询

gte代表大于等于，gt则代表大于
lte代表小于等于，lt则代表小于

点击查看代码

GET /hotel/_search
{
  "query": {
    "range": {
      "price": {
        "gte": 100,
        "lte": 200
      }
    }
  }
}

地理坐标查询
附近查询，也叫做距离查询（geo_distance）：查询到指定中心点小于某个距离值的所有文档。换句话来说，在地图上找一个点作为圆心，以指定距离为半径，画一个圆，落在圆内的坐标都算符合条件。

点击查看代码

GET /indexName/_search
{
  "query": {
    "geo_distance": {
      "distance": "15km", // 半径
      "FIELD": "31.21,121.5" // 圆心
    }
  }
}

算分函数查询
fuction score：算分函数查询，可以控制文档相关性算分，控制文档排名。例如百度搜索的广告。
相关性算分：当我们利用match查询时，文档结果会根据与搜索词条的关联度打分（_score），返回结果时按照分值降序排列。
elasticsearch会根据词条和文档的相关度做打分，算法由两种：

TF-IDF算法
BM25算法，elasticsearch5.1版本后采用的算法
语法说明：

function score 查询中包含四部分内容：
原始查询条件：query部分，基于这个条件搜索文档，并且基于BM25算法给文档打分，原始算分（query score)
过滤条件：filter部分，符合该条件的文档才会重新算分
算分函数：符合filter条件的文档要根据这个函数做运算，得到的函数算分（function score），有四种函数
- weight：函数结果是常量
- field_value_factor：以文档中的某个字段值作为函数结果
- random_score：以随机数作为函数结果
- script_score：自定义算分函数算法
运算模式：算分函数的结果、原始查询的相关性算分，两者之间的运算方式，包括：
- multiply：相乘
- replace：用function score替换query score
- 其它，例如：sum、avg、max、min
  function score的运行流程如下：
1）根据原始条件查询搜索文档，并且计算相关性算分，称为原始算分（query score）
2）根据过滤条件，过滤文档
3）符合过滤条件的文档，基于算分函数运算，得到函数算分（function score）
4）将原始算分（query score）和函数算分（function score）基于运算模式做运算，得到最终结果，作为相关性算分。
因此，其中的关键点是：
过滤条件：决定哪些文档的算分被修改
算分函数：决定函数算分的算法
运算模式：决定最终算分结果
示例：

点击查看代码

GET /hotel/_search
{
  "query": {
    "function_score": {
      "query": {
        "match":{
          "all":"外滩"
        }
      }, // 原始查询，可以是任意条件
      "functions": [ // 算分函数
        {
          "filter": { // 满足的条件，品牌必须是如家
            "term": {
              "brand": "如家"
            }
          },
          "weight": 2 // 算分权重为2
        }
      ],
      "boost_mode": "sum" // 加权模式，求和
    }
  }
}

布尔查询
布尔查询是一个或多个查询子句的组合，每一个子句就是一个子查询。子查询的组合方式有：

must：必须匹配每个子查询，类似“与”
should：选择性匹配子查询，类似“或”
must_not：必须不匹配，不参与算分，类似“非”
filter：必须匹配，不参与算分
需要注意的是，搜索时，参与打分的字段越多，查询的性能也越差。因此这种多条件查询时，建议这样做：
搜索框的关键字搜索，是全文检索查询，使用must查询，参与算分
其它过滤条件，采用filter查询。不参与算分
示例：

点击查看代码

GET /hotel/_search
{
  "query": {
    "bool": {
      "must": [
        {"term": {"city": "上海" }}
      ],
      "should": [
        {"term": {"brand": "皇冠假日" }},
        {"term": {"brand": "华美达" }}
      ],
      "must_not": [
        { "range": { "price": { "lte": 500 } }}
      ],
      "filter": [
        { "range": {"score": { "gte": 45 } }}
      ]
    }
  }
}

标签：算分,文档,查询,DSL,score,搜索,query,Elasticsearch,match
From： https://www.cnblogs.com/wzh-Official/p/17455018.html

通过DSL实现Elasticsearch数据搜索功能

相关文章

赞助商

阅读排行