首页 > 其他分享 >Elasticsearch【正则搜索】分析&实践

Elasticsearch【正则搜索】分析&实践

时间:2023-11-14 10:06:18浏览次数:25  
标签:ab 匹配 no 正则 搜索 test Elasticsearch match

Elasticsearch【正则搜索】分析&实践

Regexp Query

regexp允许使用正则表达式进行term查询.注意regexp如果使用不正确,会给服务器带来很严重的性能压力。比如.*开头的查询,将会匹配所有的倒排索引中的关键字,这几乎相当于全表扫描,会很慢。因此如果可以的话,最好在使用正则前,加上匹配的前缀。在正则中如果使用.*?或者+都会降低查询的性能。

注意:是term查询,也就是说这个查询不能跨term。

举个简单的例子:

GET /_search
{
    "query": {
        "regexp":{
            "name.first": "s.*y"
        }
    }
}

正则支持的一些标准的用法:

搜索关键词的一部分

如果给定的term是abcde

ab.* 可以匹配
abcd 不可以匹配

也支持使用^或者$来指定开头或者结尾。

允许特殊字符

一些特殊字符是需要转义的,比如:

. ? + * | { } [ ] ( ) " \ 

如果想要搜索某个固定的词,也可以加上双引号。

匹配任何字符

.可以匹配任意字符,比如

ab... 
a.c.e

这几个都可以匹配abcde

匹配一个或者多个

使用+表示匹配一个或者多个字符

a+b+        # match
aa+bb+      # match
a+.+        # match
aa+bbb+     # match

上面这些都可以匹配aaabbb

匹配零个或者多个

a*b*        # match
a*b*c*      # match
.*bbb.*     # match
aaa*bbb*    # match

上面这些都可以匹配aaabbb

匹配另个或者一个

aaa?bbb?    # match
aaaa?bbbb?  # match
.....?.?    # match
aa?bb?      # no match

上面这些都可以匹配aaabbb

支持匹配次数

使用{}支持匹配指定的最小值和最大值区间

     # repeat exactly 5 times
   # repeat at least twice and at most 5 times
    # repeat at least twice

比如对于字符串:

a{3}b{3}        # match
a{2,4}b{2,4}    # match
a{2,}b{2,}      # match
.{3}.{3}        # match
a{4}b{4}        # no match
a{4,6}b{4,6}    # no match
a{4,}b{4,}      # no match

捕获组

对于字符串ababab

(ab)+       
ab(ab)+     
(..)+       
(...)+      
(ab)*       
abab(ab)?   
ab(ab)?     
(ab){3}     
(ab){1,2}   

选择运算符

支持或操作的匹配,注意这里默认都是最长匹配的。

aabb|bbaa   # match
aacc|bb     # no match
aa(cc|bb)   # match
a+|b+       # no match
a+b+|b+a+   # match
a+(b|c)+    # match

字符匹配

支持在[]中进行字符匹配,^代表非的意思

[abc]   # 'a' or 'b' or 'c'
[a-c]   # 'a' or 'b' or 'c'
[-abc]  # '-' or 'a' or 'b' or 'c'
[abc\-] # '-' or 'a' or 'b' or 'c'
[^abc]  # any character except 'a' or 'b' or 'c'
[^a-c]  # any character except 'a' or 'b' or 'c'
[^-abc]  # any character except '-' or 'a' or 'b' or 'c'
[^abc\-] # any character except '-' or 'a' or 'b' or 'c'

其中-代表的范围匹配。

可选的匹配符

在正则表达式中也支持一些特殊的操作符,可以使用flags字段控制是否开启。

Complement

这个表示正则表示匹配一段字符串,比如ab~cd意思是:a开头,后面是b,然后是一堆非c的字符串,最后以d结尾。比如字符串abcdef

ab~df     
ab~cf     
ab~cdef   
a~(cb)def 
a~(bc)def 

Interval

interval选项支持数值的范围,比如字符串foo80:

foo<1-100>     # match
foo<01-100>    # match
foo<001-100>   # no match

Intersection

使用&可以实现多个匹配的连接,比如字符串aaabbb

aaa.+&.+bbb     # match
aaa&bbb         # no match

Any

使用@,可以匹配任意的字符串

实践

首先创建索引:
PUT test

然后创建映射:
PUT test/_mapping/test
{
  "properties": {
    "a": {
      "type": "string",
      "index":"not_analyzed" 
    },
    "b":{
      "type":"string"
    }
  }
}

添加一条数据:
PUT test/test/1
{
  "a":"a,b,c","b":"a,b,c"
}

先来分析一下,a,b,c被默认分析成了什么?

POST test/_analyze
{
  : ,
  : 
}

返回内容:

{
  : [
    {
      : ,
      : 0,
      : 1,
      : ,
      : 0
    },
    {
      : ,
      : 2,
      : 3,
      : ,
      : 1
    },
    {
      : ,
      : 4,
      : 5,
      : ,
      : 2
    }
  ]
}

然后查询一下:

POST /test/test/_search?pretty
{
  :{
    :{
        : 
    }
  }
}

返回

{
  : 2,
  : false,
  : {
    : 5,
    : 5,
    : 0
  },
  : {
    : 1,
    : 1,
    : [
      {
        : ,
        : ,
        : ,
        : 1,
        : {
          : ,
          : 
        }
      }
    ]
  }
}

再换成b字段试试:

POST /test/test/_search?pretty
{
  "query":{
    "regexp":{
        "b": "a.*b.*"
    }
  }
}

返回

{
  "took": 1,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 0,
    "max_score": null,
    "hits": []
  }
}

这是为什么呢?

因为整个regexp查询是应用到一个词上的,针对某个词,搜索a.*b.*,a字段由于不分词,它的词是整个的a.b.c;b字段经过分词,他的词是abc三个独立的词,因此针对a字段的正则搜索可以查询到结果;但是针对b字段却搜索不到。

归纳起来,还是需要好好理解分词在搜索引擎中的作用才行。

本文由博客群发一文多发等运营工具平台 OpenWrite 发布

标签:ab,匹配,no,正则,搜索,test,Elasticsearch,match
From: https://blog.51cto.com/u_14725510/8361204

相关文章

  • HTML03(函数,DOM,jQuery,正则表达式)
    基础js是弱类型的脚本语言;在浏览器的控制台打印:console.log();定义对象varobj={};对象的属性名默认就是字符串;函数前置声明varresult=fun(12,23.44);console.log(result);functionfun(a,b){//参数不需要声明类型retu......
  • NLP技术如何为搜索引擎赋能
    在全球化时代,搜索引擎不仅需要为用户提供准确的信息,还需理解多种语言和方言。本文详细探讨了搜索引擎如何通过NLP技术处理多语言和方言,确保为不同地区和文化的用户提供高质量的搜索结果,同时提供了基于PyTorch的实现示例,帮助您更深入地理解背后的技术细节。关注TechLead,分享AI......
  • NLP技术如何为搜索引擎赋能
    在全球化时代,搜索引擎不仅需要为用户提供准确的信息,还需理解多种语言和方言。本文详细探讨了搜索引擎如何通过NLP技术处理多语言和方言,确保为不同地区和文化的用户提供高质量的搜索结果,同时提供了基于PyTorch的实现示例,帮助您更深入地理解背后的技术细节。关注TechLead,分享AI全......
  • 如何像专家一样高效使用 Google 搜索
    如何像专家一样高效使用Google搜索你几乎可以在互联网上搜索到任何内容,而Google是大多数人选择搜索信息的主要途径之一。尽管频繁地使用Google,但是大部分互联网用户都不知道如何快速和高效地使用Google搜索。可以说使用Google是一门艺术。想要获得正确的答案,你需要提出正确......
  • mysql 国密加密字段排序和模糊搜索
    双写加密字段和明文分别存到两个字段中,查询只对明文进行操作. (备注:这种只是应对检查或者设计的方式,对于程序没有实际意义)使用函数利用mysql已有加解密的函数,在排序和模糊搜索之前解密数据,再进行排序或者模糊搜索.(备注:查询速度受到很大影响,不能使......
  • 正则表达式的使用教程
    对于NLP来说,正则表达式在模版比较固定的场景发挥着至关重要的作用,下面来介绍一下正则表达式的一些基本的使用,我们用python的re模块来实现我们的功能。1、匹配单个字符字符功能.匹配任意的一个字符(除了“\n”) [] 匹配[]中列举的字符 \d 匹配数字(0-9) ......
  • 搜索引擎使用技巧
    使用引号:如果您想搜索一个确切的短语,可以将短语放在引号中,搜索引擎将只返回包含该短语的结果。排除特定词语:如果您希望搜索结果中不包含特定词语,可以在搜索词前加上减号“-”,搜索引擎将排除包含该词语的结果。使用站点限定符:通过在搜索词后加上"site:",您可以限定搜索结果来自......
  • 数据结构与算法 | 记忆化搜索(Memorize Search)
    在本系列的文章中已经写了二叉树(BinaryTree)、深搜(DFS)与广搜(BFS)、哈希表(HashTable)等等,计划接下来要写的是动态规划(DynamicProgramming,DP),它算得上是最灵活的一种算法。回忆笔者学习动态规划的时候,最开始接触的是经典的“01背包”问题;不过现在想起来,以“01背包问题”作为初次......
  • java常用正则表达式工具
    publicclassRegexUtils{/***是否是无效手机格式*@paramphone要校验的手机号*@returntrue:符合,false:不符合*/publicstaticbooleanisPhoneInvalid(Stringphone){returnmismatch(phone,RegexPatterns.PHONE_REGEX);......
  • 第 117 场双周赛(容斥原理,记忆化搜索,排序)
     本题我们采用隔板法+容斥原理来解决合格总方案数=总方案书-不合理的方案数=不考虑limit的方案数-不合法方案数(至少有一个小朋友>limit)任意方案数n个小球放到3个盒子中->n+2个位置,选两个位置放隔板剩下位置放球c(n+2,2)三个小朋友为:甲乙丙小朋友甲(乙丙)>l......