NLP--关键词

时间：2024-06-04 16:58:20浏览次数：30

在去停用词后的文本中进行词频统计和关键词统计以及词云图显示，来进行文本的关键词提取，让人一目了然。

1.词频统计

统计文本中多次出现的词语，来寻找文章中的关键词，因为多次出现很可能就是关键内容。调用统计数量的Counter库和用来分词的jieba库。观察出现次数最多的十个词中，两个字以上的词语都有哪些?他们出现的次数分别是多少？

2.关键词统计：有TF-IDF算法和textrank算法。

TF-IDF是评估一个词语对于一篇文档或一个语料库中的一篇文档的重要程度。词语的重要性与它在文档中出现的次数成正比，但与它在语料库中出现的频率成反比。调用jieba库，使用jieba.analyse函数的jieba.analyse.extract_tags进行关键词提取。

textrank是一种基于图的排序算法，用于关键词的提取和文档摘要。该算法是从谷歌的网页重要性排序算法pagerank改进来的。调用jieba库，使用jieba.analyse函数的jieba.analyse.textrank进行关键词提取。

3.词云

词云通过文本预处理，词频统计，将高频词以图片形式进行色彩渲染三个步骤。词云生成需要调用matplotlib库进行词云绘制，jieba库进行分词和关键词提取，词云生成器wordcloud，对该生成器需要进行相关配置就可以生成相应的词云。其中，需要根据不同的环境设置相应的字体。

标签：NLP,jieba,--,关键词,analyse,算法,词云,词频
From： https://blog.csdn.net/weixin_53389235/article/details/139417152

Linux进程和计划任务管理
查看和控制进程程序是保存在外部存储介质(如硬盘)中的可执行机器代码和数据的静态集合，而进程是在CPU 及内存中处于动态执行状态的计算机程序。查看进程了解系统中进程的状态是对进程进行管理的前提，使用不同的命令工具可以从不同的角度查看进程状态。1.ps命令——查看......
WQS二分学习笔记
问题引入前置问题：把长度为\(n\)的正整数序列分为若干段，一段代价为这段和的平方加一个常数\(c\)，求最小代价。设\(f_i\)表示考虑前\(i\)个数且最后一段结尾为\(i\)的代价，答案为\(f_n\)，\(f_i=\max_{j=0}^{i-1}\{f_j+(s_i-s_j)^2+c\}\)，可以斜率优化，时间复杂度\(O(n)\)......
学习笔记482—手把手教你如何用mac访问win10共享文件
这个方法巨简单，只需要两台电脑都用同一个网络，我的两台电脑都是连接wifi使用的，跟着图文一步步来操作哦操作步骤：......
路过的朋友，欢迎来看看通俗易懂版本的Nacos
一、什么是Nacos？一个更易于构建云原生应用的动态服务发现、服务配置和服务管理平台。 Nacos的关键特性：二、注册中心演变及其设计思想1、RestTemplate调用远程服务如果此时，服务端接口接口名或参数或请求方式更改了，那么就得同步修改此restTemplate方法，感觉很麻烦。......
编程题
编程题编写一个函数，接受一个字符串，并返回该字符串中所有大写字母的数量。defcount_uppercase(string):returnsum(1forcharinstringifchar.isupper())实现一个函数，接受一个整数列表，并返回其中所有奇数的平方和。defsum_of_odd_squares(numbers):return......
JSON类型处理器
数据库的user表中有一个info字段，是JSON类型：格式像这样：{"age":20,"intro":"佛系青年","gender":"male"}而目前User实体类中却是String类型：这样一来，我们要读取info中的属性时就非常不方便。如果要方便获取，info的类型最好是一个Map或者实体类。而一旦我们把info改为对象......
pt-online-schema-change 在线无缝修改表
pt-online-schema-change支持在不妨碍读写操作的情况下修改表的结构。这种方法允许管理员无缝地修改表，同时保持数据的完整性，并最大限度地减少中断。为了完成在线修改的目标，pt-online-schema-change工具遵循定义明确的步骤：·创建空副本：pt-online-schema-change会为将要修改的......
superAGI核心源码分析
main.pyimportrequestsfromfastapiimportFastAPI,HTTPException,Depends,Request,status,Queryfromfastapi.middleware.corsimportCORSMiddlewarefromfastapi.responsesimportJSONResponsefromfastapi.responsesimportRedirectResponsefromfastapi_......
ssl证书安全认证的原理是什么？
SSL证书安全认证的原理是什么？SSL证书是一种数字安全证书，由受信任的CA机构验证身份后颁发，可以对数据传输进行加密以及对服务器进行身份验证。在配置SSL证书后，网站地址栏会显示“https://”开头，同时显示安全锁标志或绿色地址栏，这表示该网站已经通过了权威的第三方CA机构认证，用户可......
nlog日志
添加配置文件设置属性：复制到输出目录，如果较新则复制<?xmlversion="1.0"encoding="utf-8"?><nlogxmlns="http://www.nlog-project.org/schemas/NLog.xsd"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"><targets&g......

NLP--关键词

相关文章

赞助商

阅读排行