常见的分词方法接口+ jieba自定义领域内的词表然后加载词表进行分词

由于分词是基础组件，其性能也是关键的考量因素。通常，分词速度跟系统的软硬件环境有相关外，还与词典的结构设计和算法复杂度相关。比如我们之前跑过字嵌入+Bi-LSTM+CRF分词器，其速度相对较慢。另外，开源项目 https://github.com/ysc/cws_evaluation 曾对多款分词器速度和效果进行过对比，可供大家参考。

最后附上公开的分词数据集

测试数据集

1、SIGHAN Bakeoff 2005 MSR,560KB

http://sighan.cs.uchicago.edu/bakeoff2005/

2、SIGHAN Bakeoff 2005 PKU, 510KB

http://sighan.cs.uchicago.edu/bakeoff2005/

3、人民日报 2014, 65MB

https://pan.baidu.com/s/1hq3KKXe

在使用bert_wwm的时候要基于句子的分词结巴的分词是有一些的问题的因为不是针对某一领域的所以要制作某一领域内的词表。

先来一个示例：

import jieba

print("|".join(jieba.lcut("滴滴代驾不靠谱，在司机端总是接不到单子。")))
print("|".join(jieba.lcut("今天空车返回，在路上遇到行政执法，平台不派单")))

jieba.load_userdict("/Users/didi/Downloads/关键词提取/dict.txt")
print("|".join(jieba.lcut("滴滴代驾不靠谱，在司机端总是接不到单子。")))
print("|".join(jieba.lcut("今天空车返回，在路上遇到行政执法，平台不派单。")))

常见的分词方法接口+ jieba自定义领域内的词表然后加载词表进行分词_分词器

结巴内置的词表在哪里呢？

在结巴的库里面：/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/jieba

把自己定义的词加进去就好了

常见的分词方法接口+ jieba自定义领域内的词表然后加载词表进行分词_中文分词_02

标签：jieba,github,分词器,自定义,词表,https,com,分词
From： https://blog.51cto.com/u_15429890/5974531

常见的分词方法接口+ jieba自定义领域内的词表然后加载词表进行分词

相关文章

赞助商

阅读排行