5-IK分词器安装

时间：2023-09-23 12:23:15浏览次数：51

ES 的默认分词设置的是 standard，会单字拆分进行拆分。

POST _analyze
{
  "analyzer": "standard",
  "text": "我是中国人"
}

概述

IKAnalyzer 是一个开源的，基于 Java 语言开发的轻量级的中文分词工具包。

下载 Ik 分词器

下载地址：https://github.com/medcl/elasticsearch-analysis-ik/releases

IKAnalyzer 两种分词模式

ik_max_word：会将文本做 最细粒度 的拆分。
ik_smart：会做 最粗粒度 的拆分。

配置 IK

将下载好的 zip 上传到 linux 当中，上传到之前新建的 plugins 目录当中，上传之前首先新建一个 ik 的文件夹然后上传到新建的 ik 文件夹当中：

mkdir ik

上传完毕之后利用 unzip 进行解压：

unzip elasticsearch-analysis-ik-7.16.2.zip

之后在重启 es 与 kibana 然后在 devTools 当中进行使用 ik 的 ik_max_word 进行查询效果如下：

POST _analyze
{
  "analyzer": "ik_max_word", 
  "text": "我是中国人"
}

扩展词与停用词

扩展词

就是不想让哪些词被分开，让他们分成一个词。

停用词

有些词在文本中出现的频率非常高。但对本文的语义产生不了多大的影响。例如英文的 a、an、the、of 等。或中文的 ”的、了、呢等”。这样的词称为停用词。

设置扩展词或停用词

进入到 config 目录创建扩展词与停用词文件。

扩展词：

vim my_ext_dict.dic

假如如上的词它不是一个词，而我们又需要它是一个具体的词那么就可以像如上一样，添加到扩展词当中即可。

停用词：

vim my_stop_dict.dic

将自定义的扩展词典文件添加到 IKAnalyzer.cfg.xml 配置中。

重启 es 与 kibana 然后进行查询结果如下：

POST _analyze
{
  "analyzer": "ik_max_word", 
  "text": "我是aaa啊啊啊唐"
}

POST _analyze
{
  "analyzer": "ik_max_word", 
  "text": "我是中国人啊了呢"
}

设置 IK 分词器作为默认分词器

PUT /my_index
{
  "settings": {
    "index" :{
      "analysis.analyzer.default.type": "ik_max_word"
    }
  }
}

标签：word,max,ik,analyzer,IK,分词器,用词,安装
From： https://www.cnblogs.com/lzAurora/p/17724168.html

VirtualBox 安装 Ubuntu
VirtualBox安装Ubuntu这里我们就以安装虚拟机的方式在我们的电脑上安装Linux操作系统，我们选用Ubuntu作为教程，如果有经济实力，可以在腾讯云、阿里云之类的服务商购买一台云服务器，并选择预装Ubuntu系统；如果你还想搞嵌入式开发之类的工作，可以购买一台树莓派服务器，也可以在上面安装U......
Ubuntu 22.04 安装 Docker
安装基础工具sudoapt-getinstallca-certificatescurlgnupglsb-release安装官方的GPGkeysudomkdir-p/etc/apt/keyringscurl-fsSLhttps://download.docker.com/linux/ubuntu/gpg|sudogpg--dearmor-o/etc/apt/keyrings/docker.gpg将Docker的库添加到apt资源......
Ubuntu(Ubuntu 22.04 操作系统) 安装 Docker
Ubuntu(Ubuntu22.04操作系统)安装Docker首先安装一些工具：sudoapt-getinstallca-certificatescurlgnupglsb-release不过在Ubuntu22.04已经默认安装好了。接着安装官方的GPGkey：sudomkdir-p/etc/apt/keyringscurl-fsSLhttps://download.docker.com/linux/ubun......
vscode下载安装
vscode官网下载下载不下来，还以为是我网络的问题。看图这是因为我们都是从一下此处下载但是就会出现上面情况解决办法：One:Two:Nice!!!......
Windows 安装 Rust
1、安装rustup-init.exehttps://www.rust-lang.org/zh-CN/tools/install1、安装rustup-init.exehttps://www.rust-lang.org/zh-CN/tools/installwindows安装Rust安装太慢解决办法1、打开powershell2、分别执行下面两行代码：$ENV:RUSTUP_DIST_SERVER='https://mirrors.......
浪潮服务器NF5280A6安装ESXi
1、首先确认该型号在VMware兼容性列表中；2、进入BIOS配置IPMI地址；（服务器加电后，连接键盘显示器，按开机按钮，开始系统引导，按F11进入bios设置）3、在BIOS找到raid卡选项，修改raid端口模式为Mixed；（raid和jbod可同时配置，未配置raid的盘即为jbod）4、系统盘配置raid1，保存退出；5、连接IPMI，登......
Debian 安装 vim
root@debian:/etc/apt#vimbash:vim：未找到命令root@debian:/etc/apt#根据输出信息，您的系统上可能没有安装vim编辑器。您可以尝试使用以下命令来安装vim编辑器：apt-getinstallvim安装完成后，再次尝试使用vim命令来编辑文件。如果仍然提示vim:commandnotfound，可......
CentOS7 安装 XManager
CentOS7安装XManageryuminstall-yepel-release#安装epel源yuminstall-ylightdm&&yumgroupinstall-yxfce#安装lightdm和Xfce修改lightdm.conf文件`vim/etc/lightdm/lightdm.conf[XDMCPServer]enabled=trueport=177systemctldisableg......
Flutter/Dart第01天：Dart安装和初体验
本博客原地址：https://ntopic.cn/p/2023092301/Dart的安装方式有几种：一种是下载源代码，然后编译安装；一种是通过包管理工具进行安装。Dart官方网站分表列出了针对Windows、Linux和MacOS的安装方式：https://dart.dev/get-dart我下面在个人MacOS上介绍brew包管理工具安装方法和过程：......
TIA Portal博途 V18专业版下载链接及安装教程各个版本下载
SiemensSimaticTIAPortalV18中文简称西门子博途V18，是一款非常专业的自动化编程软件。该版本是全新的V18年版本，完美集成于STEP7,可以为全自动生产线对机器人进行编程，有着全集成自动化的功能，多用于PLC编程与仿真操作，大大提高了工作的效率，本次提供的是最新的西门子TIAPortalV18......