首页 > 其他分享 >2.4 ElasticSearch分词之中文分词

2.4 ElasticSearch分词之中文分词

时间:2022-10-24 18:01:00浏览次数:84  
标签:中文 github ik ElasticSearch https com 分词 2.4


1.简介
中文分词是指将一个汉字序列切分为一个个单词的操作。在英文中,单词之间以空格作为自然分界符,汉语中的词是没有形式上的分界符的,这是中文分词的一个难点。比如“乒乓球拍卖完了”这个汉字序列,分为“乒乓球拍/卖/完了”和“乒乓球/拍卖/完了”都是合理的。

2.常用的中文分词系统
(1).IK

(2).jieba

(3).HanLP

(4).THULAC


标签:中文,github,ik,ElasticSearch,https,com,分词,2.4
From: https://blog.51cto.com/u_15843693/5790763

相关文章