首页 > 编程语言 >Python 中文分词

Python 中文分词

时间:2024-09-07 11:22:49浏览次数:11  
标签:jieba cut join Python list 中文 seg print 分词

Python 中文分词

结巴中文分词

https://github.com/fxsjy/jieba

安装

		
pip install jieba
pip install paddlepaddle
		
	

20.5.1. 分词演示

		
# encoding=utf-8
import jieba
import paddle
paddle.enable_static()
jieba.enable_paddle()  # 启动paddle模式。 
strs = ["我来到北京清华大学", "乒乓球拍卖完了", "中国科学技术大学"]
for str in strs:
    seg_list = jieba.cut(str, use_paddle=True)  # 使用paddle模式
    print("Paddle Mode: " + '/'.join(list(seg_list)))

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))
		
		

20.5.2. 日志设置

		
import jieba
import logging
logger = logging.getLogger()
# 配置 logger 禁止输出无用的信息
jieba.default_logger = logger

text = "他来到了网易杭研大厦"

words = jieba.cut(text)
print(", ".join(words))
print("-" * 50)
# 将 “杭研大厦”,“他来到了” 词频优先
jieba.suggest_freq('杭研大厦', True)
jieba.suggest_freq('他来到了', True)
words = jieba.cut(text)
print(", ".join(words))
		
		

标签:jieba,cut,join,Python,list,中文,seg,print,分词
From: https://blog.csdn.net/u010604770/article/details/141969957

相关文章

  • Python 语音识别
    STT(SpeechToText)语音转文本17.2.1. SpeechRecognitionhttps://github.com/Uberi/speech_recognition17.2.1.1. 安装 pipinstallSpeechRecognition 麦克风相关 brewinstallportaudiopipinstallpyaudio 运行下面命令授权访问麦克风 ......
  • python PaddleOCR库用法及知识点详解
    识别图片的设置https://blog.csdn.net/f2315895270/article/details/128147744?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_baidulandingword~default-0-128147744-blog-89082526.pc_relevant_default&spm=1001.2101.3001.4242.1&utm_relevant_in......
  • 使用Python海龟绘图画出奥运五环图
    本套课程在线学习视频https://pan.quark.cn/s/3a470a7bbe67Python的海龟绘图(TurtleGraphics)是一个非常有趣且易于使用的绘图模块,特别适合初学者学习编程和简单的图形绘制。在这篇博客中,我们将使用海龟绘图模块绘制奥运五环图。奥运五环图是由五个相互重叠的圆环组成的标志,代表五大......
  • 计算机毕业设计必看必学!! 10192 springboot巡更系统,原创定制程序, java、PHP、python
    摘 要目前,在日常生活中随处可见社区巡更人员对特定的区域进行定期或者不定期的安全巡查管理。包括勤前训示、必到点签到、巡更路线等,各项勤务工作均由巡更员本人在执勤日志本中手工填写,且工作点分散,不利于统一监管,存在信息化手段不足,勤务信息获取、输入复杂,监管信息不能......
  • 计算机毕业设计必看必学!! 09446 Springboot基于小程序的校园招聘系统的设计与实现,原
    摘 要随着智能手机的普及和4G网络的发展,以O20为代表的互联网+服务模式从衣食住行等方方面面改变着我们的生活方式。基于小程序的校园招聘系统主要功能模块包括用户管理,招聘资讯、招聘职位、简历投递、面试邀请等,采取面对对象的开发模式进行软件的开发和硬体的架设,能很好的......
  • 计算机毕业设计必看必学!! 09259 ssm网上评教系统,原创定制程序, java、PHP、python、
    ssm网上评教系统摘 要随着互联网趋势的到来,各行各业都在考虑利用互联网将自己推广出去,最好方式就是建立自己的互联网系统,并对其进行维护和管理。在现实运用中,应用软件的工作规则和开发步骤,采用Java技术建设网上评教系统。本设计主要实现集人性化、高效率、便捷等优点于......
  • 【Python xpath爬虫实战】抓取下厨房的菜谱信息,并存储到MySQL数据库
    获取全部的本周最受欢迎菜谱信息本周最受欢迎菜谱_下厨房获取标题,详情页链接,原材料列表,七天内做过人数,作者字段数据需要存入mysqlimportrequestsfromlxmlimportetreeimportpymysqldb_config={'host':'127.0.0.1',#数据库地址'user':'root',#......
  • 【Python xpath爬虫实战】抓取纵横小说图书信息,并存储到MySQL数据库
    写在前面本篇博客只是为练习xpath的用法,其中的实践案例用其他的更简单方法也可以实现。想着实战演练一遍(主要是里面的案例无法使用,哭唧唧),找了一下经常爬取的网站,例如淘宝,知网什么的,但是这些网站都需要登录,难度偏大一点,就给否决掉了,最后选到了纵横小说排行榜这个网站,因为这个......
  • python中的 pickle 词解
    概述Python有pickle这个便利的功能。这个功能可以将程序运行中的对象保存为文件。如果加载保存过的pickle文件,可以立刻复原之前程序运行中的对象。解答在Python中,pickle模块用于将对象序列化(即将对象的状态转换为可存储或传输的字节流),并且能够反序列化(即从字节流恢复对象)。至......
  • 基于Python+Vue开发的旅游景区管理系统
    项目简介该项目是基于Python+Vue开发的旅游景区管理系统(前后端分离),这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能,同时锻炼他们的项目设计与开发能力。通过学习基于Python的旅游景区管理系统项目,大学生可以在实践中学习和提升自己的......