首页 > 其他分享 >大数据——补充关键词

大数据——补充关键词

时间:2024-03-25 23:12:10浏览次数:28  
标签:word 关键字 补充 关键词 tokens df import 数据 nltk

import pandas as pd
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
from nltk.probability import FreqDist

# 下载停用词列表(如果未下载的话)
nltk.download('stopwords')
df = pd.read_csv("result_table02.csv", encoding='utf-8')

# 清洗项目简介数据,确保数据是有效的字符串类型
df['项目简介'] = df['项目简介'].fillna('')  # 将空值填充为字符串

# 根据项目简介提取关键字
def extract_keywords(text):
    tokens = word_tokenize(text)  # 分词
    tokens = [word for word in tokens if word.isalpha()]  # 只保留字母
    tokens = [word for word in tokens if word.lower() not in stopwords.words('english')]  # 去除停用词
    stemmer = PorterStemmer()
    tokens = [stemmer.stem(word) for word in tokens]  # 词干提取
    fdist = FreqDist(tokens)
    return fdist.most_common(3)  # 返回出现频率最高的5个词作为关键字

# 在数据框中应用提取关键字的函数
df['关键字'] = df['项目简介'].apply(extract_keywords)

# 将关键字列表转换为逗号分隔的字符串
df['关键字'] = df['关键字'].apply(lambda x: '  '.join([word for word, freq in x]))

# 将关键字写回数据文件
df.to_csv("result_table03.csv", index=False)
print("补充关键词成功")

 

标签:word,关键字,补充,关键词,tokens,df,import,数据,nltk
From: https://www.cnblogs.com/lin513/p/18095624

相关文章

  • 数据库 char 与 varchar 的区别
     数据库内的char和varchar都是用于存储字符串数据类型的。两者主要区别是存储方式和存储情况:1)固定长度和可变长度char是固定长度的数据字符串类型,需指存储的字符长度;不论存储的字符长度是否达到了这个长度,都会占据指定存储的字符空间;例:定义一个char为10,......
  • 生信小白菜之GEO芯片数据分析流程--附画图代码
    title:“GEOdataanalysis”author:“yuluyang”date:“2024-03-22”生信技能树数据挖掘课程笔记~小洁老师授课主要内容:数据分组的内容关键词的分组和多分组比较idmap报错的原因及解决方法基因组的注释流程数据的行列互换及方差数值画图示例代码示例数据libr......
  • HashMap---数据结构
    目录一、基本数据结构二、树化与退化三、索引计算四、put方法和扩容五、并发问题六、key的设计一、基本数据结构        在jdk1.7版本的时候,hashmap结构主要是使用数组+链表的格式,而在jdk1.8版本中,hashmap的数据结构增加了一种“红黑树”的结构,即数组+(......
  • 静态数据成员的应用
    classStudent{//1.数据成员privateStringname;privateStringsex;publicstaticStringschool="岳麓书院";//公布静态数据成员//2.省略构造方法;//3.省略setter和getter方法;//4.功能方法publicvoiddisplay(){......
  • 海量数据处理项目-阿里编码规范里面Manager分层介绍和开发规范说明
    ......
  • MySQL 数据库的日志管理、备份与恢复
    一.数据库备份1.数据备份的重要性 备份的主要目的是灾难恢复。在生产环境中,数据的安全性至关重要。任何数据的丢失都可能产生严重的后果。造成数据丢失的原因:程序错误人为,操作错误,运算错误,磁盘故障灾难(如火灾、地震)和盗窃.容灾概念:容灾(DisasterRecovery,DR)......
  • 非关系型数据库的应用
    一、SQL的优缺点1,SQL的优点(1)标准化模式。虽然SQL数据库的标准化模式使它们变得僵硬且难以修改,但它确实具有一些优势。添加到数据库的所有数据都必须符合众所周知的由行和列组成的链接表模式。有些人可能会发现这种局限性,但当数据一致性、完整性、安全性和合规性非常重要时,它会......
  • 038Confluence数据导出或备份
    一、从Confluence导出zip文件Server版导出步骤打开需要迁移的空间,选择空间管理,点击内容工具>导出。在导出格式中勾选HTML,点击下一个,选择普通导出。勾选需要导出的空间页面,选择完毕后点击导出。导出完毕后,点击here下载到本地 注:空间管理按键通常在页面左下......
  • C语言:自定义数据类型——结构体
    文章目录结构体类型的声明结构体的声明结构体变量的创建和初始化结构的特殊声明结构体的自引用结构体内存对齐对齐规则修改默认对齐数结构体传参结构体类型的声明结构体的声明structtag{ member-list;//成员}variable-list;//变量名例如描述一个学生str......
  • 【活动回顾】蚂蚁摩斯“数据要素市场&行业数智化系列沙龙”首期 圆满举行
    3月21日,蚂蚁摩斯联合上海市数商协会、上海数据交易所,共同举办第一期数据要素市场&行业数智化实践系列沙龙活动,以金融行业为专题展开研讨,共同推动金融行业数据要素市场发展。本次活动由上海数交所副总经理章健开场揭开活动序幕,同时活动还邀请了蚂蚁集团合规负责人、帆软软件资......