jieba分词

jieba分词

时间：2023-12-18 20:36:21浏览次数：36

尾号为1,2,3的同学做，西游记相关的分词，出现次数最高的20个。

```import jieba

# 读取文本文件
path = "西游记.txt"
file = open(path, "r", encoding="utf-8")
text = file.read()
file.close()

# 使用jieba分词
words = jieba.lcut(text)

# 统计词频
counts = {}
for word in words:
    # 过滤掉长度为1的词语
    if len(word) == 1:
        continue
    # 更新字典中的词频
    counts[word] = counts.get(word, 0) + 1

# 对字典中的键值对进行排序
items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)

# 输出前20个高频词语
for i in range(20):
    word, count = items[i]
    print(f"{word:<10}{count:>5}")

标签：jieba,word,items,file,counts,分词
From： https://www.cnblogs.com/Yleina/p/17912175.html

jieba 分词
描述尾号为1,2,3的同学做，西游记相关的分词，出现次数最高的20个。‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪......
jieba 分词红楼梦相关的分词，出现次数最高的20个
点击查看代码importjiebaimportwordclouddeftakeSecond(elem):returnelem[1]defcreateWordCloud(text):#生成词云函数w=wordcloud.WordCloud(font_path="STZHONGS.TTF",width=1000,height=500,background_color="white")w.g......
jieba 分词西游记
importjiebatxt=open("西游记.txt","r",encoding='utf-8').read()words=jieba.lcut(txt)counts={}forwordinwords:iflen(word)==1:continueelifword=="大圣"orword=="老孙"or......
jieba分词
jieba分词‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬描述‪‬‪‬‪‬‪‬‪‬‮‬‪‬......
jieba分词之聊斋
importjiebaexcludes={"不知","不可","一日","不敢","数日","以为","不能","可以","不得","如此","------------","三日","而已","明日","其中&qu......
jieba分词
importjiebapath="all.txt"#读取文本文件file=open(path,"r",encoding="utf-8")text=file.read()file.close()words=jieba.lcut(text)#使用jieba分词counts={}#统计词频forwordinwords:iflen(word)==1:#过滤掉长度为1的词语......
jieba分词
importjiebawithopen('红楼梦.txt','r',encoding='utf-8')asf:#打开文件txt=f.read()#读取为txtwords=jieba.lcut(txt)#利用jieba库的lcut分词counts={}#创建字典forwordinwords:#逐个遍历iflen(word)==1:#对于一些分词之......
一种可以实现搜索结果按照相似度来排序的sql，核心是分词和order by like 的使用
常规的搜索一般使用like执行模糊搜索，这种搜索有个缺陷，一旦搜索内容里面有一个错的就会导致搜索失败。有没有一种实现可以容错的且按照相似度排序的方法呢？类似百度google那样的。经过自己的测试发现使用分词结合排序的orderbylike可以实现。我直接给出例子sql的吧比如......
python123——西游记相关的分词，出现次数最高的20个
#统计西游记人物出场次数，（去除冠词，代词等干扰）并降序排列p173importjiebaexcludes={"一个","那里","怎么","我们","不知","两个","甚么","不是","只见","原来","如何","这个","不曾&q......
R语言汽车口碑数据采集抓取、文本数据分词和词云可视化实现
原文链接：https://tecdat.cn/?p=34469原文出处：拓端数据部落公众号本文以R语言为工具，帮助客户对汽车网站的口碑数据进行抓取，并基于文本数据分词技术进行数据清理和统计。通过词频统计和词云可视化，对口碑中的关键词进行分析，挖掘出消费者对汽车的评价和需求，为汽车制造商和销售商提供......

相关文章

赞助商

阅读排行