首页 > 编程语言 >*Python*jieba库简单分词

*Python*jieba库简单分词

时间:2024-09-09 11:20:35浏览次数:10  
标签:jieba cut 自定义 sentence Python words 分词

        jieba 库是一个用 Python 编写的用于中文文本处理的开源库,它的主要功能是将连续的中文字符序列切分成一个个单独的词语。jieba 分词支持多种分词模式,并且可以方便地加载自定义词典,以提高分词的准确率。

1、安装jieba库

pip install jieba

2、精确模式
精确模式是最常用的分词模式,它会尽可能地切出有意义的词语。 

import jieba

sentence = "我来到北京清华大学"
words = jieba.cut(sentence, cut_all=False)
print(" | ".join(words))

  输出结果: 我 | 来到 | 北京 | 清华大学

3、全模式
全模式会将句子中所有可能的词语都切出来,适合搜索引擎做索引。

words = jieba.cut(sentence, cut_all=True)
print(" | ".join(words))

输出结果: 我 | 来到 | 北京 | 清华 | 华大 | 大学

4、搜索引擎模式
搜索引擎模式会尽可能地给出精确的切分结果,并适当考虑未登录词。

words = jieba.cut_for_search(sentence)
print(" | ".join(words))

输出结果: 我 | 来到 | 北京 | 清华 | 大学

5、自定义词典
为了提高分词准确性,可以向 jieba 加载自定义词典。

# 假设有一个自定义词典文件 custom_dict.txt
jieba.load_userdict("custom_dict.txt")

# 然后使用 jieba 正常分词即可
words = jieba.cut("我爱编程")
print(" | ".join(words))

输出结果: 我 | 爱 | 编程

6、应用方向

文本分析:如情感分析、主题建模等。
搜索引擎优化:通过分词提高搜索相关性。
机器翻译:作为预处理步骤,帮助翻译模型更好地理解文本。

       

        jieba 分词库为中文文本处理提供了强大的工具,无论是学术研究还是工业应用,都能发挥重要作用。通过上述介绍,相信你已经掌握了 jieba 的基本使用方法。

标签:jieba,cut,自定义,sentence,Python,words,分词
From: https://blog.csdn.net/m0_57916248/article/details/141951998

相关文章

  • linux安装python3(源代码安装)
    相关软件安装python3安装源代码安装下载python3源码包比如说python3.9.10:https://www.python.org/ftp/python/3.9.10/Python-3.9.10.tar.xz#通过wget下载wgethttps://www.python.org/ftp/python/3.9.10/Python-3.9.10.tar.xz#进行源代码包的解压(xz使用J解压,gz使用......
  • Python用CNN+LSTM+Attention对新闻文本分类、锂离子电池健康、寿命数据预测
     分析师:WeiqiaoJue在当今的数字化时代,数据的爆炸式增长既带来了机遇,也带来了挑战。如何从海量的数据中高效地提取有价值的信息,并进行准确的分类和预测,成为了众多领域亟待解决的关键问题。本研究通过CNN+LSTM+Attention模型提高新闻文本分类的精确性的案例,结合Attention+CNN+BiLST......
  • 安卓版本python画一个太极图程序代码
    importturtleimportmathdefdraw_circle(color,radius,x,y):turtle.penup()turtle.goto(x,y)turtle.pendown()turtle.color(color)turtle.begin_fill()turtle.circle(radius)turtle.end_fill()defdraw_half_yin_yang(color,radius,x,y):turtle.penup()......
  • 基于Python的期货交易模拟系统
    基于Python的期货交易模拟系统。开发技术:PyCharm开发环境;Python语言;MySQL数据库;Django框架;B/S架构。项目内容:该系统从三个对象:由管理员和用户、期货公司来对系统进行设计构建。主要功能包括:个人信息修改,对用户信息、期货公司信息、期货投资、取消投资、风险控制、账户资金、......
  • 17 Python异常处理(捕获异常、抛出异常、自定义异常)
    本篇是Python系列教程第17篇,更多内容敬请访问我的Python合集当我们编写代码时,可能会遇到各种各样的错误情况,比如除数为零、找不到文件、网络问题等等。为了优雅地处理这些问题,Python提供了异常处理机制。1异常处理的基本结构Python中的异常处理主要依赖于try和ex......
  • Python 错误 AttributeError 解析,实际错误实例详解
    文章目录前言Python错误AttributeError:_csv.readerobjectHasNoAttributeNext修复Python中的AttributeError:'_csv.reader'objecthasnoattribute'next'错误Python错误AttributeError:‘_io.TextIOWrapper‘objectHasNoAttribute‘Sp......
  • 16 Python的包以及import和from的使用
    本篇是Python系列教程第16篇,更多内容敬请访问我的Python合集1创建包创建文件夹:首先你需要创建一个文件夹作为包的容器。添加__init__.py文件:在这个文件夹内需要有一个特殊的文件叫做__init__.py。这个文件可以为空,也可以包含初始化代码。它的存在标志着这个目录可......
  • (免费源码)计算机毕业设计必看必学 原创定制程序 java、PHP、python、小程序、文案全套
    springboot电影推荐网站摘 要随着互联网时代的到来,同时计算机网络技术高速发展,网络管理运用也变得越来越广泛。因此,建立一个B/S结构的电影推荐网站;电影推荐网站的管理工作系统化、规范化,也会提高平台形象,提高管理效率。本电影推荐网站是针对目前电影推荐网站的实际需求,从......
  • (免费源码)计算机毕业设计必看必学 原创定制程序 java、PHP、python、小程序、文案全套
    SSM?中小型药店信息管理系统摘要21世纪的今天,随着社会的不断发展与进步,人们对于信息科学化的认识,已由低层次向高层次发展,由原来的感性认识向理性认识提高,管理工作的重要性已逐渐被人们所认识,科学化的管理,使信息存储达到准确、快速、完善,并能提高工作管理效率,促进其发展。论......
  • 【Python学习笔记】 第5章 数值类型
    数值类型基础知识在Python中,数值实际上是一种类型的分类,包括:整数、浮点数复数小数:固定精度对象分数:有理数对象集合:带有数值运算的集合体布尔值:True,False内置函数与块:round,math,random等表达式、无限制精度整数(很大的整数)、位运算、八进制、十二进制、......