需求:
工作中需要计算上市公司绿色创新效率数据,需要首先利用text_preprocessing对文本提取值进行预处理,然后通过Text mining方法进行转换后计算处理,最后利用效率法来进行综合计算和归类存储,用于后续的深度数据挖掘。
解决:
import nltk from nltk.corpus import stopwords from nltk.tokenize import word_tokenize nltk.download('stopwords') nltk.download('punkt')
def text_preprocessing(text): # 文本转换 text = text.lower() # 分词 tokens = word_tokenize(text) # 去除停用词 stop_words = set(stopwords.words('english')) tokens = [token for token in tokens if token not in stop_words] return tokens
text = "Text mining is the process of analyzing text data to extract useful information." tokens = text_preprocessing(text) print(tokens)
数据来源: 上市公司绿色创新效率数据
标签:mining,text,nltk,tokens,token,import,效率 From: https://blog.51cto.com/u_16035617/7250426