1.简介
中文分词是指将一个汉字序列切分为一个个单词的操作。在英文中,单词之间以空格作为自然分界符,汉语中的词是没有形式上的分界符的,这是中文分词的一个难点。比如“乒乓球拍卖完了”这个汉字序列,分为“乒乓球拍/卖/完了”和“乒乓球/拍卖/完了”都是合理的。
2.常用的中文分词系统
(1).IK
- 实现中英文单词的切分,支持ik_smart、ik_maxword等模式
- 可自定义词库,支持热更新分词词典
- https://github.com/medcl/elasticsearch-analysis-ik
(2).jieba
- python中最流行的分词系统,支持分词和词性标注
- 支持繁体分词、自定义词典和并行分词等
- https://github.com/singlee/elasticsearch-jieba-plugin
(3).HanLP
- 由一系列模型与算法组成的java工具包,目标是普及自然语言处理
- https://github.com/hankcs/HanLP
(4).THULAC
- 清华大学推出的一套中文词法分析工具包,具有中文分词和词性标注功能
- https://github.com/microbun/elasticsearch-thulac-plugin