ES007-Elasticsearch中文分词集成

时间：2023-03-11 11:06:35浏览次数：50

标签：end ES007 token start ik Elasticsearch offset type 分词

1、elasticsearch官方

只提供smartcn这个中文分词插件，效果不是很好

2、引入分词器前命令行下测试

curl 'http://localhost:9200/jf/_analyze?pretty=true' -d '{"text":"京东商城"}'

现象是按照每个单词进行要给分词

3、集成IK分词工具
3.1：下载es的IK插件https://github.com/medcl/elasticsearch-analysis-ik

这里选择v1.4.0 版本，具体可以访问：https://github.com/medcl/elasticsearch-analysis-ik/tree/v1.4.0，然后点击"Download Zip "

ES007-Elasticsearch中文分词集成_github

3.2：使用maven进行编译下载的源码

ES007-Elasticsearch中文分词集成_analyzer_02

3.3：把编译后的target/releases下的elasticsearch-analysis-ik-1.4.0.zip文件拷贝到ES_HOME/plugins/analysis-ik目录下面，然后解压

3.4：把下载的ik插件中的conf/ik目录拷贝到ES_HOME/config下

3.5：修改ES_HOME/config/elasticsearch.yml文件，添加index.analysis.analyzer.default.type: ik(把IK设置为默认分词器)

3.6：重启es服务

3.7：测试分词效果： curl 'http://localhost:9200/jf/_analyze?analyzer=ik&pretty=true' -d '{"text":"京东商城"}'

[root@mycluster service]#  curl 'http://localhost:9200/jf/_analyze?analyzer=ik&pretty=true' -d '{"text":"京东商城"}'
  
 {  
   "tokens" : [ {  
     "token" : "text",  
     "start_offset" : 2,  
     "end_offset" : 6,  
     "type" : "ENGLISH",  
     "position" : 1  
   }, {  
     "token" : "京东",  
     "start_offset" : 9,  
     "end_offset" : 11,  
     "type" : "CN_WORD",  
     "position" : 2  
   }, {  
     "token" : "京",  
     "start_offset" : 9,  
     "end_offset" : 10,  
     "type" : "CN_WORD",  
     "position" : 3  
   }, {  
     "token" : "东",  
     "start_offset" : 10,  
     "end_offset" : 11,  
     "type" : "CN_CHAR",  
     "position" : 4  
   }, {  
     "token" : "商城",  
     "start_offset" : 11,  
     "end_offset" : 13,  
     "type" : "CN_WORD",  
     "position" : 5  
   } ]  
 }

标签：end,ES007,token,start,ik,Elasticsearch,offset,type,分词
From： https://blog.51cto.com/u_14361901/6114257

SpringBoot整合ElasticSearch
ElasticSearch是个开源分布式搜索引擎，提供搜集、分析、存储数据三大功能。它的特点有：分布式，零配置，自动发现，索引自动分片，索引副本机制，restful风格接口，多数据源，自动搜索负载......
ElasticSearch 实现分词全文检索 - 测试数据准备
目录ElasticSearch实现分词全文检索-概述ElasticSearch实现分词全文检索-ES、Kibana、IK安装ElasticSearch实现分词全文检索-Restful基本操作ElasticSearch......
Elasticsearch
ES是基于索引的设计，它没办法像MySQL那样使用join查询，所以，查询数据时我们需要把每条主数据及关联子表的数据全部整合在一条记录中。ES的存储结构无结构文档......
ElasticSearch 实现分词全文检索 - Java SpringBoot ES 索引操作
目录ElasticSearch实现分词全文检索-概述ElasticSearch实现分词全文检索-ES、Kibana、IK安装ElasticSearch实现分词全文检索-Restful基本操作ElasticSearch......
ElasticSearch 实现分词全文检索 - Restful基本操作
Restful语法GET请求:http://ip:port/index:查询索引信息http://ip;port/index/type/doc_id:查询指定的文档信息POST请求:http://ip;port/index/type/_search:......
新概念2册L49笔记（分词做状语）
L49Theendofadream单词讲解分词做状语课文理解......
NLP-transformer-分词库用法
NLP-transformer-分词库用法参考文档： https://blog.csdn.net/orangerfun/article/details/1240894671pipinstalltransformer2下载专有的vocab.txt词典这个......
ElasticSearch 实现分词全文检索 - 概述
需求做一个类似百度的全文搜索功能所用的技术如下：ElasticSearchKibana管理界面IKAnalysis分词器SpringBootElasticSearch简介ES是一个使用Java语言并且基......
elasticsearch 排错总结
控制台乱码修改elasticsearch-7.6.2\config下的jvm.options文件,在任意行上加上-Dfile.encoding=GBKIK报错但成功启动，按照网上的说法是jdk权限不足，修改方式是改变jdk权限......
Ceph RGW ElasticSearch同步模块介绍
ElasticSearch同步模块注意：截至2020年5月31日，仅支持Elasticsearch6及更低版本。不支持ElasticSearch7。此同步模块将其他区域的元数据写入ElasticSearch。......

ES007-Elasticsearch中文分词集成

相关文章

赞助商

阅读排行