Elasticsearch 认识分词(1)

时间：2024-04-07 17:36:35浏览次数：26

标签：倒排认识 analyzer 索引 Elasticsearch 分词器文档分词

一.概述

　　分词是构建倒排索引的重要一环。根据语言不同可以分为英文分词、中文分词等；根据分词实现的不同又分为标准分词器、空格分词器、停用词分词器等。在传统的分词器不能解决特定业务场景的问题时，往往需要自定义分词器。

　　1.1认识分词

　　　　对于分词操作来说，英语单词分词相对简单，因为单词之间都会以空格或者标点隔开，举例如下

　　A man can be destroyed,but not defeated.
　　a /man/can/be/destroyed /but /not/defeated(正确)

　　　　而中文在单词、句子甚至段落之间没有空格, 分词比较复杂

　　内塔尼亚胡说的确实在理

　　内塔尼亚胡 /说 /的确 /实在 /理(错误)
　　内塔尼亚 /胡说 /的 /确实 /在理(错误)
　　内塔尼亚胡 /说的 /确实 /在理(正确)

　　1.2 什么时候需要分词

　　　　用户需要进行模糊搜索的场景，通过“搜索词”搜索出关联的文档数据，特别是在大数据量，要求搜索快速响应等情况下使用分词，分词后存储为倒排索引结构的倒排文件，通过倒排索引快速检索出相关文档。

　　1.3 分词发生的阶段

　　　　前提条件：只有文档中的text类型字段才会进行分词，es默认分词器是：standard分词器。

　　　　1）在写入数据时(数据索引化过程)，使用分词器进行分词，将分词存储为倒排索引。

　　　　2）在搜索数据时(检索过程)，通过“搜索词”进行分词找到相应文档。

　　1.4 分析器(analyzer)组成

　　　　文档在写入并转换为倒排索引前，通过es内置分析器(analyzer)或自定义分析器进行分析实现，analyzer由三个部分组成：

　　　　1）charactcr filter 字符过滤器。

　　　　2) tokenizer 分词器，将文本切分为单个单词 term。

　　　 3）token filter 令牌过滤器，分词后再过滤。

　　　　1个analyzer包括: 0或多个charactcr filter、1个tokenizer 、 0或多个token filter。

参考资料：一本书讲透Elasticsearch

标签：倒排,认识,analyzer,索引,Elasticsearch,分词器,文档,分词
From： https://www.cnblogs.com/MrHSR/p/18102257

Elasticsearch-定制分词器
一、内置分词器分词步骤1).characterfilter:在一段文本进行分词之前，先进行预处理，eg：最常见的过滤html标签(hello->hello）,&->and(I&you->Iandyou)2).tokenizer:分词，eg:helloyouandme->hello,you,and,me3).tokenfilter:一个个小单词标准化转换lower......
C++从入门到精通——初步认识面向对象及类的引入
初步认识面向对象及类的引入前言一、面向过程和面向对象初步认识C语言C++二、类的引入C++的类名代表什么示例C++与C语言的struct的比较成员函数访问权限继承默认构造函数默认成员初始化结构体大小总结前言面向过程注重任务的流程和控制，适合简单任务和流程固定的......
C++模版简单认识与使用
目录前言：1.泛型编程2.函数模版3.类模版为什么要有类模版？使用typedef不行吗？类模版只能显示实例化：注意类名与类型的区别：注意类模版最好不要声明和定义分离：总结：前言：正如标题而言，这里只是对模版的简单认识与使用，方便后面博客介绍stl中一些容器的实现，更复杂详细的模版......
关于学术论文的一些认识
1.什么是核心期刊、SCI核心期刊通常是指在特定学科领域内具有一定学术影响力和水平的期刊，经过权威机构认定，并受到学术界和科研机构的认可和重视。这些期刊通常具有严格的审稿制度、高质量的论文和较高的引用率。SCI（ScienceCitationIndex）是科学引文索引，是由美国科学信息研究所......
聚酰亚胺PI材料难于粘接，用什么胶水粘接？那么让我们先一步步的从认识它开始（十九）: 聚酰亚
聚酰亚胺PI涂料聚酰亚胺（PI）涂料是一种应用广泛的高性能的涂料，以聚酰亚胺树脂为主要成膜物质、溶剂和其他添加剂组成，经过涂布、固化等工艺制备而成。聚酰亚胺树脂具有出色的耐热性、电绝缘性、机械性能以及化学稳定性，因此，聚酰亚胺PI涂料也继承了这些优异的性能，以下是聚酰亚胺P......
使用阿里云试用Elasticsearch学习：1.1 基础入门——入门实践
阿里云试用一个月：https://help.aliyun.com/search/?k=elastic&scene=all&page=1官网试用十五天：https://www.elastic.co/cn/cloud/cloud-trial-overviewElasticsearch中文文档：https://www.elastic.co/guide/cn/elasticsearch/guide/current/_document_oriented.html控制台......
认识单相变压器
变压器可将某一电压数值的交流电转换成同频率的另一电压数值的交流电，它主要由铁心和绕组组成。1.铁心铁心是变压器的磁路部分。为了减少铁心内部的涡流损耗和磁滞损耗，铁心一般用0.35mm厚的冷轧硅钢片叠成。变压器的铁心一般分为心式和壳式两大类:心式：两颗心紧紧靠在一起。壳式：外面......
太强了！分布式Elasticsearch集群数据迁移企业案例
太强了！分布式Elasticsearch集群数据迁移企业案例原创林致远 Linux运维之旅 2024-04-0408:31 广东 1人听过Linux运维之旅专注分享运维实用技术，内容不限于Linux系统运维、自动化工具、监控工具、日志采集、容器技术、测试工具、python、GO等技术分享20篇原......
ElasticSearch 实战：ElasticSearch索引操作
Elasticsearch实战：Elasticsearch索引操作在使用Elasticsearch进行数据管理时，索引操作是核心的一部分。本篇将详细介绍如何进行索引的创建、查看、更新（包括映射修改）、关闭与开启、删除等操作，以及如何进行索引模板设置以简化索引管理。**1.创建索引创建索引可以通过发......
Elasticsearch与Clickhouse的对比分析
ClickHouse和Elasticsearch是两种不同的数据存储和分析工具，各自在不同的用例和场景下发挥着作用。数据类型：ClickHouse：主要用于结构化数据，特别擅长处理大规模的数据仓库和分析场景，支持SQL查询。Elasticsearch：适用于非结构化或半结构化数据，特别擅长全文搜索和日志分析，支......

Elasticsearch 认识分词(1)

一.概述

相关文章

赞助商

阅读排行