首页 > 其他分享 >上市公司绿色创新效率数据计算(text mining方法的使用)

上市公司绿色创新效率数据计算(text mining方法的使用)

时间:2023-08-27 10:37:48浏览次数:46  
标签:mining text nltk tokens token import 效率

需求:

工作中需要计算上市公司绿色创新效率数据,需要首先利用text_preprocessing对文本提取值进行预处理,然后通过Text mining方法进行转换后计算处理,最后利用效率法来进行综合计算和归类存储,用于后续的深度数据挖掘。

解决:

import nltk from nltk.corpus import stopwords from nltk.tokenize import word_tokenize nltk.download('stopwords') nltk.download('punkt')

def text_preprocessing(text): # 文本转换 text = text.lower() # 分词 tokens = word_tokenize(text) # 去除停用词 stop_words = set(stopwords.words('english')) tokens = [token for token in tokens if token not in stop_words] return tokens

text = "Text mining is the process of analyzing text data to extract useful information." tokens = text_preprocessing(text) print(tokens)

数据来源:  上市公司绿色创新效率数据

标签:mining,text,nltk,tokens,token,import,效率
From: https://blog.51cto.com/u_16035617/7250426

相关文章

  • 论文解读(TAMEPT)《A Two-Stage Framework with Self-Supervised Distillation For Cros
     论文信息论文标题:ATwo-StageFrameworkwithSelf-SupervisedDistillationForCross-DomainTextClassification论文作者:YunlongFeng,BohanLi,LiboQin,XiaoXu,WanxiangChe论文来源:2023aRxiv论文地址:download 论文代码:download视屏讲解:click1介绍 动......
  • 【C#】【Windows 窗体应用】TextBox 的多行实现换行
    1.设置TextBox空间允许多行: this.textBox1.Multiline=true;  2.换行字符是使用"\r\n"。1textBox1.Text+="第0行\r\n";2textBox1.Text+="第1行\r\n";3textBox1.Text+="第2行\r\n";4textBox1.Text+="第3行\r\n";5......
  • 【SQL Server】NOT IN 语句效率低,用NOT Exisits 或者连接替代
    https://it.cha138.com/javascript/show-6146927.html【SQL】语句中,IN效率低下,最好使用【Exitis】或内循环替代。 ......
  • 5G网关如何提升智慧乡村农业生产效率
    得益于我国持续推进5G建设,截至今年5月,我国5G基站总数已达284.4万个,覆盖全国所有地级市、县城城区和9成以上的乡镇镇区,实现“镇镇通5G”,全面覆盖了从城市到农村的延伸。 依托5G网络的技术优势,智慧乡村数字农业迎来的全面的应用升级,在环境监测、耕植规划、农业机械管理、数据分析......
  • HarmonyOS/OpenHarmony(Stage模型)卡片开发应用上下文Context使用场景一
    1.获取应用文件路径基类Context提供了获取应用文件路径的能力,ApplicationContext、AbilityStageContext、UIAbilityContext和ExtensionContext均继承该能力。应用文件路径属于应用沙箱路径。上述各类Context获取的应用文件路径有所不同。通过ApplicationContext获取应用级别的应用......
  • ios 开发之 -- UILabel的text竖行显示
    让UILabel的内容竖行显示,我经常用一下两种方式:第一种:使用换行符\nlabel.text=@"请\n竖\n直\n方\n向\n排\n列";label.numberOfLines=[label.textlength];第二种:使用lineBreakMode属性label.text=@"请竖行显示";label.lineBreakMode=NSLineBreakByWordWrapping;//换行模......
  • 工业物联网平台如何帮助提升智能制造业的生产效率
    随着科技的不断进步,智能制造已经成为制造业的重要发展方向。在这个趋势下,工业物联网平台正在发挥越来越重要的作用。 工业物联网平台是一种集成了设备、数据和应用的平台。它通过连接各种设备、传感器和系统,实现了对生产过程中海量数据的实时采集、处理和应用。它具有强大的数据处......
  • Immortal Objects将被添加进Python,提高CPU效率
         据了解,日前Meta宣布将在Python中加入ImmortalObjects,使得对象可以绕过参照计数检查,成为在执行时持续存活的“不朽对象”,以便提高内存的使用效率,帮助解除Python语言本身在平行运算上的局限。有开发人员发现,Meta使用Python网页框架Django开发Instagram前端,并且使......
  • BL110智能网,实现PLC程序的无缝传输,提升生产效率!
    在工业自动化系统中,PLC(可编程逻辑控制器)是一种常见的控制设备。通常情况下,PLC被用于监控、控制和调节生产过程中的各种设备和机器。而PLC一旦出现故障,就会影响到下控设备的工作状态,进而影响整个工厂的生产节奏,因此一旦出现故障就要快速维护以恢复生产,保证订单顺利交付。在实际项目......
  • Commit failed (details follow): Working copy text base is corrupt Checksum misma
    问题:提交一个svn文件报错,提交其他文件没有报错解决办法:(网上看了很多方法都解决不了):1、把文件拷贝到svn目录外放着2、把svn目录下文件移除,然后commitsvn3、把目录外的文件拷贝进来,先Add,然后commit就成功了......