jieba分词

jieba分词

时间：2023-12-17 14:45:30浏览次数：30

import jieba

with open('红楼梦.txt','r',encoding='utf-8')as f: # 打开文件
    txt = f.read() # 读取为txt
    words = jieba.lcut(txt) # 利用jieba库的lcut分词
    counts={} # 创建字典
    for word in words: # 逐个遍历
        if len(word) == 1:   #  对于一些分词之后只有一个词的，还有一些只有单个的符号的，如。，!~，直接选择舍弃，只统计词组类型的
            continue
        else:
            #  创建字典，对应的值会进行累加
            counts[word]=counts.get(word,0)+1 # 此时词语出现次数累加 ，对每一个键对应的值
list = list(counts.items()) # 字典中items（）方法见下 ,函数返回列表类型，列表里面每一个元素是一个(键, 值) 元组数组。
# 从大到小进行排列 ，key对应的值为字典的[1]索引 = value,此时列表里面每一个元素是一个元组的形式
list.sort(key=lambda x:x[1],reverse=True)
for i in range(20):
    print("红楼梦出现第{}多的词语是{},出现的次数为{}".format(i+1,list[i][0],list[i][1]))

标签：jieba,word,list,counts,txt,分词
From： https://www.cnblogs.com/lin--/p/17909054.html

一种可以实现搜索结果按照相似度来排序的sql，核心是分词和order by like 的使用
常规的搜索一般使用like执行模糊搜索，这种搜索有个缺陷，一旦搜索内容里面有一个错的就会导致搜索失败。有没有一种实现可以容错的且按照相似度排序的方法呢？类似百度google那样的。经过自己的测试发现使用分词结合排序的orderbylike可以实现。我直接给出例子sql的吧比如......
python123——西游记相关的分词，出现次数最高的20个
#统计西游记人物出场次数，（去除冠词，代词等干扰）并降序排列p173importjiebaexcludes={"一个","那里","怎么","我们","不知","两个","甚么","不是","只见","原来","如何","这个","不曾&q......
R语言汽车口碑数据采集抓取、文本数据分词和词云可视化实现
原文链接：https://tecdat.cn/?p=34469原文出处：拓端数据部落公众号本文以R语言为工具，帮助客户对汽车网站的口碑数据进行抓取，并基于文本数据分词技术进行数据清理和统计。通过词频统计和词云可视化，对口碑中的关键词进行分析，挖掘出消费者对汽车的评价和需求，为汽车制造商和销售商提供......
通过结巴分词 sklearn判断语句和例句集合最相近的句子
`importjiebafromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.metrics.pairwiseimportcosine_similaritytemplates=["分析一下攻击队QAX的攻击行为","分析一下防守单位QAX的防守情况","分析一下目标资产1.1.1.1相关的攻击行为","攻击队QAX......
jieba-cant-extract-single-character
jiebacantextractsinglecharacterSubtitle:jieba无法提取单个字符Created:2023-11-13T15:28+08:00Published:2023-11-13T15:45+08:00以句子"我喜欢赵"为例，用「赵」代指某个人名，使用jieba提取关键词：importjiebaimportjieba.analyseimportjieba.possegaspseg......
ElasticSearch-集成ik分词器
目录背景介绍版本选择优势说明集成过程1.下载安装包2.解压安装包3.重启ElasticSearch服务3.1通过ps-ef|grepelastic查看正在启动的es进程号3.2使用kill-9xxx杀死进程3.3使用./elasticsearch启动es服务分词测试细粒度分词方式分词请求分词结果粗粒度分词方式分词请求分词......
docker 配置 ElasticSearch + Kibana + ik分词器
docker配置ElasticSearch+Kibana+ik分词器下载镜像文件dockerpullelasticsearch:7.4.2#存储和检索数据dockerpullkibana:7.4.2#可视化检索数据创建实例配置外置挂在目录，echo这一行命令配置可以被任意主机访问mkdir-p/mydata/elasticsearch/configmkdir-p/......
Python中文分词、词频统计并制作词云图
中文分词、词频统计并制作词云图是统计数据常用的功能，这里用到了三个模块快速实现这个功能。中文分词、词频统计importjiebafromcollectionsimportCounter#1.读取文本内容并进行分词withopen('demo.txt',mode='r',encoding='gbk')asf:report=f.read()words......
ElasticSearch 拼音分词和自动补全
在搜索过程中，大部分情况下会有智能提示功能，也就是开头匹配的自动补全功能，这就需要用到ElasticSearch的Suggest查询功能。用户也可能输入拼音或者查询关键字的首字母简写，比如我想查询华为手机，我可以输入hwsj进行查询，这就需要用到拼音分词器。本篇博客将介绍如何安装拼音分词......
Java 实现结巴分词
pom.xml引入结巴分词maven依赖<dependency> <groupId>com.huaban</groupId> <artifactId>jieba-analysis</artifactId> <version>1.0.2</version></dependency>测试@Testpublicvoidtest(){StringgoodsNa......

相关文章

赞助商

阅读排行