ES Analyzer分析器

时间：2022-10-16 12:03:29浏览次数：426

标签：符号分析器 Analyzer 空格切分小写 ES

Analysis与Analyzer

Analysis：文本分析，将文本转换成一系列单词（term/token）的过程也叫分词
Analyzer：分析器，实现分词的工具，ES自带有部分分析器，用户可以自定义

Analyzer的组成

分析器由三部分组成，Character Filter（针对原始文本处理，例如去掉HTML）、Tokenizer（按照规则切分单词）、Token Filters（将切分的单词进行加工，小写，删除stopwords，增加同义词等）

ES内置分析器

Standard Analyzer - 默认分析器，英文按词切分，中文按字切分，过滤符号，小写处理
Simple Analyzer - 按非字母（数字，符号，空格）切分，过滤符号，小写处理
Stop Analyzer - 按非字母（数字，符号，空格）切分，过滤符号、停用词（the，a，is），小写处理
Whitespace Analyzer - 按照空格切分，不转小写
Keyword Analyzer - 不分词，直接将输入当输出
Pattern Analyzer - 正则表达式进行分词，默认是\W+，非字符的符号（符号，空格，中文）进行切分，小写处理，过滤停用词
Language - 提供了30多种常见西语分析器
中文分词器 - 根据中文语义切分多个词语，eg：IK，ICU，THULAC
Customer Analyzer - 用户自定义分析器

Standard Analyzer（ES默认分词器）

英文按单词切分，中文按单字切分，过滤符号，保留数字，中英文，且小写处理英文

Simple Analyzer

按照非字母切分，即数字，符号和空格切分，并去除掉数字，符号和空格，且英文小写处理

Stop Analyzer

按照非字母切分，即数字，符号和空格切分，并去除掉停用词，数字，符号和空格，且英文小写处理

Whitespace Analyzer

按照空格切分，英文不转成小写

Keyword Analyzer

不分词，直接将输入当一个term输出

Pattern Analyzer

默认是\W+，非字符的符号（符号，空格，中文）进行切分，英文小写处理，且过滤掉停用词

标签：符号,分析器,Analyzer,空格,切分,小写,ES
From： https://www.cnblogs.com/tenic/p/16795900.html

ES 安装IK分析器
ES支持以插件形式，热插拔需要的插件。对于中文分词器，我们这边选用IK分词器，下边来看下基于Docker形式怎么安装IK分析器插件下载IK分析器IK分词器在github上有大神以开源，......
ES 自定义分析器
分析器的组成一个分析器由三部分组成：CharacterFilter/Tokenizer/TokenFilerCharacterFilters在Tokenizer之前对文本进行处理，可以配置多个CharacterFilter。ES自带......
SpringBoot整合ES查询
springboot整个es有很多钟方法，比如TransportClient、RestClient、RestHighLevelClient、SpringData-Es、Elasticsearch-SQL等。ElasticSearch官方提供了3个Client，具体......
ES大数据量的分页查询
FROM/SIZE分页查询默认情况下，不加from，size的话，ES会返回前10条记录。加上from，size就会查询指定的条数。其中from代表起始行号，size代表查询行数。如果用JAVA等Client端传参......
ES的过滤查询
ES的查询类型和特性查询（query）：默认会计算每个返回文档的得分，然后根据得分排序过滤（filter）：筛查出符合条件的文档，并且不计算得分，还可以缓存文档注意：filter过滤查询必须要......
ES聚合查询
Elasticsearch的聚合查询分为四大类，分别是BucketAggregation、MetricAggregation、PipelineAggregation、MatrixAggregration。具体的四大类都是什么意思呢？都是怎么运......
ES中的DSL语句操作
ES中的查询分为URISearch、RequestBodySearch。URISearch-在URL中使用查询参数。RequestBodySearch-使用JSON格式的入参作为查询条件。DSL语句就是基于Reques......
ES中的一些基本概念以及和关系数据库对比
以下总结点为自己思路总结，有不正确地方，请斧正。ES中的基本概念一……索引索引：存放在ES中同一个类型文档的集合叫做ES中的索引，类似于关系数据库中的TableES中的基......
kubernetes学习笔记4-pod
Pod资源定义自主式pod资源，很少用到，手动创建的资源，用kubectldelete后不会自动创建，而使用pod控制器管理的才会按照用户期望的重新创建；资源清单：一级字段（apiVersion|kind|m......
绝杀processOn，这款UML画图神器，阿里字节都用疯了，你还不知道？
大家好，我是陶朱公Boy，又和大家见面了。前言在文章开始前，想先问大家一个问题，大家平时在项目需求评审完后，是直接开始编码了呢？还是会先写详细设计文档，后再开始进行编码开发......