jieba 库是一个用 Python 编写的用于中文文本处理的开源库,它的主要功能是将连续的中文字符序列切分成一个个单独的词语。jieba 分词支持多种分词模式,并且可以方便地加载自定义词典,以提高分词的准确率。
1、安装jieba库
pip install jieba
2、精确模式
精确模式是最常用的分词模式,它会尽可能地切出有意义的词语。
import jieba
sentence = "我来到北京清华大学"
words = jieba.cut(sentence, cut_all=False)
print(" | ".join(words))
输出结果: 我 | 来到 | 北京 | 清华大学
3、全模式
全模式会将句子中所有可能的词语都切出来,适合搜索引擎做索引。
words = jieba.cut(sentence, cut_all=True)
print(" | ".join(words))
输出结果: 我 | 来到 | 北京 | 清华 | 华大 | 大学
4、搜索引擎模式
搜索引擎模式会尽可能地给出精确的切分结果,并适当考虑未登录词。
words = jieba.cut_for_search(sentence)
print(" | ".join(words))
输出结果: 我 | 来到 | 北京 | 清华 | 大学
5、自定义词典
为了提高分词准确性,可以向 jieba 加载自定义词典。
# 假设有一个自定义词典文件 custom_dict.txt
jieba.load_userdict("custom_dict.txt")
# 然后使用 jieba 正常分词即可
words = jieba.cut("我爱编程")
print(" | ".join(words))
输出结果: 我 | 爱 | 编程
6、应用方向
文本分析:如情感分析、主题建模等。
搜索引擎优化:通过分词提高搜索相关性。
机器翻译:作为预处理步骤,帮助翻译模型更好地理解文本。
jieba 分词库为中文文本处理提供了强大的工具,无论是学术研究还是工业应用,都能发挥重要作用。通过上述介绍,相信你已经掌握了 jieba 的基本使用方法。
标签:jieba,cut,自定义,sentence,Python,words,分词 From: https://blog.csdn.net/m0_57916248/article/details/141951998