首页 > 其他分享 >接单日记(三)文本处理之词云生成

接单日记(三)文本处理之词云生成

时间:2023-05-10 12:11:06浏览次数:36  
标签:word stop dataset 词云 接单 Path 文本处理

目录

接单日记(三)文本处理之词云生成

此为一个实验报告,故遵守实验报告的格式。

一、 实验目的

  1. 熟悉Python第三方库python-docx、wordcloud、jieba库的安装和使用
  2. 熟悉使用pathlib来获取文件
  3. 熟悉运用Python封装的思想
  4. 熟悉使用join方法对字符串进行拼接操作
  5. 了解字符串的utf-8的编码格式

二、 实验内容

编写一个程序,提取词库里面的所有内容,对其进行分词操作,同时进行词频统计,停用词清洗的操作,最后输出图云到result.jpg中。

三、 程序及结果

1、 运行程序

from docx import Document
from pathlib import Path
from wordcloud import WordCloud
import jieba

font = Path(r"C:\Windows\Fonts\simfang.ttf")
word_dataset = Path("词库.docx")
stop_word = Path("stoplist.txt")


def get_stop_list(stop_word):
    with open(stop_word, "r", encoding="utf-8") as f:
        return set(f.read().split())


def handle_word_dataset(word_dataset):
    str_ = ""
    for j in Document(word_dataset).paragraphs:
        str_ += j.text

    return [w for w in jieba.cut(str_)]

wc = WordCloud(
    font_path=str(font),
    stopwords=get_stop_list(stop_word),
    width=1920,
    height=1080,
    background_color="white",
    max_words=1000,
).generate(" ".join(handle_word_dataset(word_dataset)))
wc.to_file(Path("result.jpg"))

2、 运行结果

标签:word,stop,dataset,词云,接单,Path,文本处理
From: https://www.cnblogs.com/liuzhongkun/p/17387615.html

相关文章

  • Python文本处理
     binascii—ConvertbetweenbinaryandASCII—Python3.11.3documentation Hackbright-challenges/hexconvert.pyatmaster·kritikadusad/Hackbright-challenges·GitHub hex2bin/hex2bin.pyatmain·jasonalexander-ja/hex2bin(github.com)importre......
  • 词云
    7.词云重叠#代码12-1评论去重的代码 import pandasaspdimport reimport jieba.possegaspsgimport numpyasnp  #去重,去除完全重复的数据reviews = pd.read_csv(r"G:\data\data\reviews.csv")reviews = reviews[['content', 'content_type']......
  • python_数据分析与挖掘实战_词云
    #-*-coding:utf-8-*-#代码12-1评论去重的代码importpandasaspdimportreimportjieba.possegaspsgimportnumpyasnp#去重,去除完全重复的数据reviews=pd.read_csv("../../data/0404/reviews.csv")reviews=reviews[['content','content_type']......
  • 词云重叠
    #代码12-1评论去重的代码 import pandasaspdimport reimport jieba.possegaspsgimport numpyasnp  #去重,去除完全重复的数据reviews = pd.read_csv(r"G:\data\data\reviews.csv")reviews = reviews[['content', 'content_type']].drop_dupl......
  • 接单日记(二)SMTP发送邮件
    目录接单日记(二)SMTP发送邮件一、实验目的二、实验内容三、程序及结果1、运行程序2、运行结果接单日记(二)SMTP发送邮件此为一个实验报告,故遵守实验报告的格式。一、实验目的熟悉SMTP发送邮件的原理使用SMTP实现自动化发送邮件的功能熟练在实际场景中使用装饰器,提高代码......
  • 手把手教你对抓取的文本进行分词、词频统计、词云可视化和情感分析
    今日鸡汤苍苍竹林寺,杳杳钟声晚。大家好,我是Python进阶者。前言前几天星耀群有个叫【小明】的粉丝在问了一道关于Python处理文本可视化+语义分析的问题,如下图所示。他要构建语料库,目前通过Python网络爬虫抓到的数据存在一个csv文件里边,现在要把数据放进txt里,表示不会,然后还有后面的......
  • 接单日记(一):理解浮点数运算的误差
    目录接单日记(一):理解浮点数运算的误差一、实验目的二、实验内容三、程序及结果接单日记(一):理解浮点数运算的误差此为一个实验报告,故遵守实验报告的格式。一、实验目的理解python中的浮点数计算存在的一个误差问题理解这种误差对程序带来的危害理解如何解决程序产生的误差......
  • 快速上手Linux核心命令(五):文本处理三剑客
    @目录前言正则表达式第一剑客grep第二剑客sed第三剑客awk小结剑仙镇楼~O(∩_∩)O前言上一篇中已经预告,我们这篇主要说Linux文本处理三剑客。他们分别是grep、sed、awk。既然能被业界称为三剑客,可见其在Linux命令中占有举足轻重得地位。所以呢,这里也专门写一篇文章说一说......
  • 5.Linux文本处理
    前言我们上节课学了vim文本编辑器,可以以交互的方式去编辑我们的文本,即在vim是打开文本然后通过键盘对其进行插入、删除、替换等,这节课就会大家介绍一下Linux中的文本三剑客,之前在第三课我们已经学习了grep命令,这节课我们就来学习剩下的两个,sed与awk及一些其它命令sed命令上面......
  • python_数据分析与挖掘实战_词云
    #-*-coding:utf-8-*-#代码12-1评论去重的代码importpandasaspdimportreimportjieba.possegaspsgimportnumpyasnp#去重,去除完全重复的数据reviews=pd.read_csv("../../data/0404/reviews.csv")reviews=reviews[['content','content_ty......