标签：jieba novelDict word 文本 novel 词频自然语言

【自然语言处理概述】文本词频分析

作者简介：在校大学生一枚，华为云享专家，阿里云专家博主，腾云先锋（TDP）成员，云曦智划项目总负责人，全国高等学校计算机教学与产业实践资源建设专家委员会（TIPCC）志愿者，以及编程爱好者，期待和大家一起学习，一起进步~ . 博客主页：ぃ灵彧が的学习日志 . 本文专栏：人工智能 . 专栏寄语：若你决定灿烂，山无遮，海无拦 .

(文章目录)

一、前沿

(一)、任务描述

文本与图片具有本质上的差别：图片本质上是数字化的，其每个像素点都由三原色的组合灰度值构成，而文本属于自然语言，其表现形式无法被计算机直接识别，因此，在自然语言处理技术发展的早期，解决文本表示问题是一项极具挑战的任务。

(二)、环境配置

本次实验平台为百度AI Studio，Python版本为Python3.7，下面介绍如何通过Python编程方式实现文本词频分析。

二、代码部分

(一)、文本加载

首先将需要分析的文本从文件中读出，本文以一篇散文为例进行后面的分析：

with open('test.txt', 'r', encoding='UTF-8') as novelFile:
    novel = novelFile.read()

(二)、文本分词

目前，Python支持多种第三方分词工具，最常用的有jieba分词、SnowNLP、THULAC、NLPIR等，本书以jieba分词为例进行演示，更多分词工具读者可以自行实验尝试。

import jieba # jieba中文分词库
novelList = list(jieba.lcut(novel))

(三)、去停用词

在自然语言中，存在很多无意义的词，比如标点符号“、”“的”“之”等，这类词出现频率高，且具有很有限的语义作用，称作停用词。为了避免这类词对统计结果造成的干扰，通常在分词之后，需要将其剔除，只保留重要的词语用作进一步分析，下面一段代码演示了计算每个词出现的频次的过程，若该词在停用词列表中，直接不计入：

stopwords = [line.strip() for line in open('stop.txt', 'r', encoding='UTF-8').readlines()]
novelList = list(jieba.lcut(novel))
novelDict = {}

# 统计出词频字典
for word in novelList:
    if word not in stopwords:
            # 不统计字数为一的词
            if len(word) == 1:
                continue
            else:
                novelDict[word] = novelDict.get(word, 0) + 1

(四)、根据词频排序并输出

import jieba # jieba中文分词库

with open('test.txt', 'r', encoding='UTF-8') as novelFile:
    novel = novelFile.read()
# print(novel)
stopwords = [line.strip() for line in open('stop.txt', 'r', encoding='UTF-8').readlines()]
novelList = list(jieba.lcut(novel))
novelDict = {}

# 统计出词频字典
for word in novelList:
    if word not in stopwords:
            # 不统计字数为一的词
            if len(word) == 1:
                continue
            else:
                novelDict[word] = novelDict.get(word, 0) + 1

# 对词频进行排序
novelListSorted = list(novelDict.items())
novelListSorted.sort(key=lambda e: e[1], reverse=True)

# 打印前10词频
topWordNum = 0
for topWordTup in novelListSorted[:10]:
    print(topWordTup)

from matplotlib import pyplot as plt
x = [c for c,v in novelListSorted]
y = [v for c,v in novelListSorted]
plt.plot(x[:10],y[:10],color='r')
plt.show()

(五)、小结

词频统计在一定程度上可以反映文本的特征。文本词频分析仅仅可以作为文本的一部分最浅层的特征使用，但是要分析其深度语义，需要使用更加先进的文本特征提取方式。

三、总结

本系列文章内容为根据清华社出版的《自然语言处理实践》所作的相关笔记和感悟，其中代码均为基于百度飞桨开发，若有任何侵权和不妥之处，请私信于我，定积极配合处理，看到必回！！！

最后，引用本次活动的一句话，来作为文章的结语～(￣▽￣～)~：

【**学习的最大理由是想摆脱平庸，早一天就多一份人生的精彩；迟一天就多一天平庸的困扰。**】

在这里插入图片描述

标签：jieba,novelDict,word,文本,novel,词频,自然语言
From： https://blog.51cto.com/u_15745546/5785743

【自然语言处理概述】文本词频分析

【自然语言处理概述】文本词频分析

一、前沿

(一)、任务描述

(二)、环境配置

二、代码部分

(一)、文本加载

(二)、文本分词

(三)、去停用词

(四)、根据词频排序并输出

(五)、小结

三、总结

相关文章

赞助商

阅读排行