首页 > 其他分享 >(十):IK分词器

(十):IK分词器

时间:2024-01-18 17:36:02浏览次数:29  
标签:ik IK smart 分词器 分词 词模式

  ElasticSearch默认的内置分词器standard是针对英文等拉丁语系设计的,是不支持中文分词的。IK分词器是一个开源的中文分词器插件,丰富和优化了 Elasticsearch 的设计。

  ES默认分词器standard对中文分词结果如下:

1、IK分词器的特点

  IK分词器是ES的一个插件,有如下特点:

支持细粒度分词

IK分词器可将一段中文或英文划分更细粒度的关键字,在搜索的时候会将信息进行分词,然后进行一一匹配操作

多种分词模式

IK提供了两个分词算法:ik_smart和ik_max_word

ik_smart为最少切分,添加了歧义识别功能;

ik_max_word为最细切分,能切的都会被切掉

自定义词库

自定义词库可以提高分词的准确性和召回率,IK 分词器允许用户自定义词典,可以添加新词、调整词频等,以便更好地适应特定的领域或需求

2、IK分词器安装

2.1、下载IK分词器插件

  插件下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases,可根据ElasticSearch的版本自行选择JK分词器的版本下载,这里因为我的ES版本是7.10.0,所以下载相应版本的JK分词器。

2.2、安装IK分词器插件

  将下载的插件文件解压缩到 Elasticsearch 安装目录的 plugins 文件夹中。

0

2.3、重启ES

  出现如下提示表示IK分词器安装成功。

3、IK分词器的分词模式

  IK提供了两种分词模式: ik_smart - 细粒度分词、ik_max_word - 智能分词。

ik_smart

默认的分词模型,最少切分,会将句子尽可能的且为最小的词,可获得细粒度的分词结果

ik_max_word

最细切分,对长词进行进一步的切分。它可以识别更多的词语,可获得更全面的分词结果

3.1、ik_smart 分词模式

# IK分词器 ik_smart分词模式
GET _analyze
{
  "analyzer": "ik_smart",
  "text": "苦海无涯,回头是岸"
}

3.2、ik_max_word 分词模式

# IK分词器 ik_max_word分词模式
GET _analyze
{
  "analyzer": "ik_max_word",
  "text": "苦海无涯,回头是岸"
}

 

标签:ik,IK,smart,分词器,分词,词模式
From: https://www.cnblogs.com/RunningSnails/p/17972970

相关文章

  • es安装分词插件elasticsearch-analysis-ik(elasticsearch-plugin方式安装)
    环境:OS:Centos7ES:6.8.5 1.查看当前的安装的插件[root@hadoop-slave1soft]#curl-uelastic:123456-XGET"http://192.168.1.63:19200/_cat/plugins?v&s=component&h=name,component,version,description&pretty"namecomponentversiondescription 2.将分......
  • 【scikit-learn基础】--『监督学习』之 谱聚类
    谱聚类算法基于图论,它的起源可以追溯到早期的图分割文献。不过,直至近年来,受益于计算机计算能力的提升,谱聚类算法才得到了广泛的研究和关注。谱聚类被广泛应用于图像分割、社交网络分析、推荐系统、文本聚类等领域。例如,在图像分割中,谱聚类可以有效地将图像划分为背景和前景;在社交......
  • 中科院罗小舟团队提出 UniKP 框架,大模型 + 机器学习高精度预测酶动力学参数
    作者:李宝珠编辑:三羊中国科学院深圳先进技术研究院罗小舟团队提出了,基于酶动力学参数预测框架(UniKP),实现多种不同的酶动力学参数的预测。众所周知,生物体内的新陈代谢是通过各种各样的化学反应来实现的。这些反应如果在体外进行,通常需要在高温、高压、强酸、强碱等剧烈条件下才......
  • ES--自定义分词器
    默认的拼音分词器会将每个汉字单独分为拼音,而我们希望的是每个词条形成一组拼音,需要对拼音分词器做个性化定制,形成自定义分词器。 elasticsearch中分词器(analyzer)的组成包含三部分:characterfilters:在tokenizer之前对文本进行处理。例如删除字符、替换字符tokenizer:将文......
  • 无涯教程-SQL - Like语句
    SQLLIKE子句用于使用通配符运算符将值与相似值进行比较,LIKE运算符与两个通配符一起使用。百分号(%)下划线(_)百分号代表零个,一个或多个字符,下划线表示单个数字或字符,这些符号可以组合使用。Like-语法%和_的基本语法如下-SELECTFROMtable_nameWHEREcolumnLIKE'XXX......
  • ubuntu18.04+ ROS melodic 安装trac-ik
    IKFast太麻烦了,出现错误太多,安装失败!转而安装Trac-IK,方法很简单,ROS的软件源中已经集成了TRAC-IK的安装包,可以直接使用以下命令安装:sudoapt-getinstallros-melodic-trac-ik然后修改机械臂MoveIt!配置功能包下的kinematics.yaml文件就可以使用啦: arm:kinematics_sol......
  • 【scikit-learn基础】--『监督学习』之 层次聚类
    层次聚类算法是机器学习中常用的一种无监督学习算法,它用于将数据分为多个类别或层次。该方法在计算机科学、生物学、社会学等多个领域都有广泛应用。层次聚类算法的历史可以追溯到上世纪60年代,当时它主要被用于社会科学中。随着计算机技术的发展,这种方法在90年代得到了更为广泛的......
  • 【scikit-learn基础】--『监督学习』之 均值聚类
    聚类算法属于无监督学习,其中最常见的是均值聚类,scikit-learn中,有两种常用的均值聚类算法:一种是有名的K-means(也就是K-均值)聚类算法,这个算法几乎是学习聚类必会提到的算法;另一个是均值偏移聚类,它与K-means各有千秋,只是针对的应用场景不太一样,但是知名度远不如K-Means。本篇介绍如......
  • Java set-cooike cookie.setDomain错误
    javacookie.setDomain(".test.com");错误Therewasanunexpectederror(type=InternalServerError,status=500).Aninvaliddomain[.test.com]wasspecifiedforthiscookiepublicvoidsetCookie(HttpServletResponseresponse,Stringtoken){/......
  • 开源云原生网关Linux Traefik本地部署结合内网穿透远程访问
     开源云原生网关LinuxTraefik本地部署结合内网穿透远程访问前言Træfɪk是一个云原生的新型的HTTP反向代理、负载均衡软件,能轻易的部署微服务。它支持多种后端(Docker,Swarm,Mesos/Marathon,Consul,Etcd,Zookeeper,BoltDB,RestAPI,file…),可以对配置进行......