elasticsearch之ik分词器和自定义词库实现

时间：2024-06-13 14:10:18浏览次数：21

标签：词汇自定义词 ik elasticsearch 分词器分词 es

ElasticSearch分词器

所谓的分词就是通过tokenizer(分词器)将一个字符串拆分为多个独立的tokens(词元-独立的单词)，然后输出为tokens流的过程。

例如"my name is HanMeiMei"这样一个字符串就会被默认的分词器拆分为[my,name,is HanMeiMei].ElasticSearch中提供了很多默认的分词器，我们可以来演示看看效果

但是在ElasticSearch中提供的分词器对中文的分词效果都不好。

所以这时我们就需要安装特定的分词器 IK，在https://github.com/medcl/elasticsearch-analysis-ik 下载对应的版本，然后解压缩

因为第一次启动docker容器的时候进行了数据卷的挂载

docker run -d \
--name es \
-e "ES_JAVA_OPTS=-Xms512m -Xmx512m" \
-e "discovery.type=single-node" \
-v es-data:/usr/share/elasticsearch/data \
-v es-plugins:/usr/share/elasticsearch/plugins \
--privileged \
--network es-net \
-p 9200:9200 \
-p 9300:9300 \
elasticsearch:7.12.1

所以直接将解压缩后的包拖到

这个目录下

最后重启es容器

ik分词演示

ik_smart分词

# 通过ik分词器来分词
POST /_analyze
{
"analyzer": "ik_smart"
,"text": "我是中国人，我热爱我的祖国"
}

ik_max_word

POST /_analyze
{
"analyzer": "ik_max_word"
,"text": "我是中国人，我热爱我的祖国"
}

拓展词库和停用词典

在我们使用过程中我们会发现，一些新兴词汇不会被添加到词库中，如：奥里给。。。并且不是所有的词作者在编写分词器时都会知道。还有一些不敏感词汇如“的”，“了”都会被分词，占用了我们一部分内存，所以我们需要停用这些词汇

具体操作如下：

打开shell控制台，找到对应的xml文件，在里面进行相应的修改

然后在config目录下新建ext.dic

直接在里面添加你想要的词汇就行

stopword.dic在config文件夹里面有，就不用新建了，直接打开添加你想要屏蔽的词汇就行

最后重启一下服务

最后测试一下生效了没

能看到确实有效，ok了老铁。还有其他更多的内容去官网上看吧。拜拜了

标签：词汇,自定义词,ik,elasticsearch,分词器,分词,es
From： https://www.cnblogs.com/wjzohou/p/18245759

极限网关助力好未来 Elasticsearch 容器化升级
极限网关在好未来的最佳实践案例，轻松扛住日增百TB数据的流量，助力ES从物理机到云原生架构的改造，实现了流控、请求分析、安全管理、无缝迁移等场景。一次完美的客户体验~背景物理机架构时代2022年，好未来整个日志Elasticsearch拥有数十套服务集群，几百台物理机。这么多台......
高性能版本的零内存分配LikeString函数（ZeroMemAllocLikeOperator）
继上一篇文章在.NETCore，除了VB的LikeString，还有其它方法吗？(四种LikeString实现分享)分享了四种实现方式，笔者对这四种实现方式，不管是执行性能还是内存分配性能上，都不太满意。那么是否有好的实现方法呢？答案是有的。今天我们就搬出ReadOnlySpan<T>这个非常好用的结构类型，它是在.N......
基于phpstudy的Pikachu靶场搭建（有手就会）
目录一、phpstudy和pikachu源码下载地址二、phpstudy创建网站，网站根目录设置为pikachu的源码文件夹1、将pikachu_master（pikachu源码文件夹）放到phpstudy的WWW目录下2、打开phpstudy，创建pikachu靶场网站三、配置pikachu靶场四、用phpstudy的mysql连接pikachu靶场的数据库......
干货：TikTok限流、0播放问题怎么解决？
针对TikTok运营中常见的流量问题，如疑似限流、零播放等，本文将为大家提供详尽的解答和策略。Q1：为何视频播放量始终难以突破几百？A1：视频播放量低，首要考虑的并非限流。内容质量是关键，建议检查视频内容是否吸引人且符合TikTok的规范。同时，网络环境稳定性也很重要，非常建议使用原生......
12款高效开源Wiki系统推荐，打造团队知识管理利器
文章介绍了12款好用的开源Wiki：PingCode、DokuWiki、MediaWiki、TikiWikiCMSGroupware、XWiki、BookStack、PMWiki、Foswiki、GitBook、Wiki.js、TiddlyWiki、Slite。以及对比了一款非开源但提供免费版本的Wiki工具，以供大家选择。在企业知识管理和团队协作中，Wiki系统因其强......
TIKTOK海外抖音实操班：下载注册/配置/养号/引流/发视频/等等（共17课）
这个课程教你怎样在Tiktok上注册、设置、养号、吸引流量和发布视频。内容包括市场前景、与抖音的区别、下载和设置、网络环境、注册账号、打造优质号、找热门素材、使用热门标签和音乐、保持视频清晰度、上传技巧、避免账号被降权或封禁、优化流量下降、最佳发布时间和提高完播......
删除elasticsearch数据
删除elasticsearch数据分为两种：一种是删除索引（数据和表结构同时删除，作用同sqlserver中droptable"表格名"），另一种是删除数据（不删除表结构，作用同sqlserver中delete语句）1、查询索引curl-XGEThttp://127.0.0.1:9201/_cat/indices?vcurl-uuser:passwd -XGEThttp://127......
在.NET Core，除了VB的LikeString，还有其它方法吗？(四种LikeString实现分享)
Like运算符很好用，特别是它所提供的其中*、?这两种通配符，在Windows文件系统和各类项目中运用非常广泛。但Like运算符仅在VB中支持，在C#中，如何实现呢？以下是关于LikeString的四种实现方式，其中第四种为Regex正则表达式实现，且在.NETStandard2.0及以上平台支持。Operators.LikeStr......
我在TikTok上卖车给老外，三个月入账2000万
文雪豹财经社王亚骏抱着"反正亏不了多少钱"的心态，安岚（化名）在TikTok上试着把中国汽车卖给老外。短短一个季度，她就拿下了2000万元的营收，而投入仅2000元左右。在此之前，她从未有过任何销售工作经验。去年8月初，安岚带着一身的疲惫从某互联网大厂裸辞，“想躺一段......
Lucene的IK分词器学习，增加支持单个特殊符号搜索
前言感谢CSDN这篇文章，原始代码基于这里。正常对于“abc@google.com”这段文字，搜索'@'这个符号是搜不出来的。本文主要修改是扩展IK分词器，增加了对诸如"@-"这种特殊文字的检索。当然这个其实并没有多少实际意义，所以基本也是出于学习的目的。正文IK分词器分析这里不深入原理，......

elasticsearch之ik分词器和自定义词库实现

ElasticSearch分词器

相关文章

赞助商

阅读排行