首页 > 其他分享 >ES Analyzer分析器

ES Analyzer分析器

时间:2022-10-16 12:03:29浏览次数:421  
标签:符号 分析器 Analyzer 空格 切分 小写 ES

Analysis与Analyzer

  • Analysis:文本分析,将文本转换成一系列单词(term/token)的过程也叫分词
  • Analyzer:分析器,实现分词的工具,ES自带有部分分析器,用户可以自定义

Analyzer的组成

  • 分析器由三部分组成,Character Filter(针对原始文本处理,例如去掉HTML)、Tokenizer(按照规则切分单词)、Token Filters(将切分的单词进行加工,小写,删除stopwords,增加同义词等)

ES内置分析器

  • Standard Analyzer - 默认分析器,英文按词切分,中文按字切分,过滤符号,小写处理
  • Simple Analyzer - 按非字母(数字,符号,空格)切分,过滤符号,小写处理
  • Stop Analyzer - 按非字母(数字,符号,空格)切分,过滤符号、停用词(the,a,is),小写处理
  • Whitespace Analyzer - 按照空格切分,不转小写
  • Keyword Analyzer - 不分词,直接将输入当输出
  • Pattern Analyzer - 正则表达式进行分词,默认是\W+,非字符的符号(符号,空格,中文)进行切分,小写处理,过滤停用词
  • Language - 提供了30多种常见西语分析器
  • 中文分词器 - 根据中文语义切分多个词语,eg:IK,ICU,THULAC
  • Customer Analyzer - 用户自定义分析器

Standard Analyzer(ES默认分词器)

英文按单词切分,中文按单字切分,过滤符号,保留数字,中英文,且小写处理英文
image.png

Simple Analyzer

按照非字母切分,即数字,符号和空格切分,并去除掉数字,符号和空格,且英文小写处理
image.png

Stop Analyzer

按照非字母切分,即数字,符号和空格切分,并去除掉停用词,数字,符号和空格,且英文小写处理
image.png

Whitespace Analyzer

按照空格切分,英文不转成小写
image.png

Keyword Analyzer

不分词,直接将输入当一个term输出
image.png

Pattern Analyzer

默认是\W+,非字符的符号(符号,空格,中文)进行切分,英文小写处理,且过滤掉停用词
image.png

标签:符号,分析器,Analyzer,空格,切分,小写,ES
From: https://www.cnblogs.com/tenic/p/16795900.html

相关文章

  • ES 安装IK分析器
    ES支持以插件形式,热插拔需要的插件。对于中文分词器,我们这边选用IK分词器,下边来看下基于Docker形式怎么安装IK分析器插件下载IK分析器IK分词器在github上有大神以开源,......
  • ES 自定义分析器
    分析器的组成一个分析器由三部分组成:CharacterFilter/Tokenizer/TokenFilerCharacterFilters在Tokenizer之前对文本进行处理,可以配置多个CharacterFilter。ES自带......
  • SpringBoot整合ES查询
    springboot整个es有很多钟方法,比如TransportClient、RestClient、RestHighLevelClient、SpringData-Es、Elasticsearch-SQL等。ElasticSearch官方提供了3个Client,具体......
  • ES大数据量的分页查询
    FROM/SIZE分页查询默认情况下,不加from,size的话,ES会返回前10条记录。加上from,size就会查询指定的条数。其中from代表起始行号,size代表查询行数。如果用JAVA等Client端传参......
  • ES的过滤查询
    ES的查询类型和特性查询(query):默认会计算每个返回文档的得分,然后根据得分排序过滤(filter):筛查出符合条件的文档,并且不计算得分,还可以缓存文档注意:filter过滤查询必须要......
  • ES聚合查询
    Elasticsearch的聚合查询分为四大类,分别是BucketAggregation、MetricAggregation、PipelineAggregation、MatrixAggregration。具体的四大类都是什么意思呢?都是怎么运......
  • ES中的DSL语句操作
    ES中的查询分为URISearch、RequestBodySearch。URISearch-在URL中使用查询参数。RequestBodySearch-使用JSON格式的入参作为查询条件。DSL语句就是基于Reques......
  • ES中的一些基本概念以及和关系数据库对比
    以下总结点为自己思路总结,有不正确地方,请斧正。ES中的基本概念一……索引索引:存放在ES中同一个类型文档的集合叫做ES中的索引,类似于关系数据库中的TableES中的基......
  • kubernetes学习笔记4-pod
    Pod资源定义​自主式pod资源,很少用到,手动创建的资源,用kubectldelete后不会自动创建,而使用pod控制器管理的才会按照用户期望的重新创建;​资源清单:一级字段(apiVersion|kind|m......
  • 绝杀processOn,这款UML画图神器,阿里字节都用疯了,你还不知道?
    大家好,我是陶朱公Boy,又和大家见面了。前言在文章开始前,想先问大家一个问题,大家平时在项目需求评审完后,是直接开始编码了呢?还是会先写详细设计文档,后再开始进行编码开发......