首页 > 其他分享 >大数据分析---关键词分类任务

大数据分析---关键词分类任务

时间:2024-03-07 18:45:29浏览次数:32  
标签:数据分析 分类 提取 关键词 --- 文本

现在的任务需求是根据关键词(以逗号分割的一列)对类别分类。

问题:

1.样本数据不够多,并且关键词来源于之前的csv文件的某一列的提取,可能本身就不太准确。

2.数据本身有空值等不合理的字段。

3.数据准备阶段需要将将中文文本转化为encoding编码

解决方案:

经过查阅资料可以选择使用朴素贝叶斯作为文本分类的算法,但是经过实验,其准确率不高,仅有0.44,还有一种方法是用循环神经网络对文本分类(TextRNN)

在数据准备阶段首先需要将原来的两列文件改为统一格式例如 “农业  a1,a2,a3....”,然后需要去除缺省值,避免后续出错。

为了提高关键词的质量,需要重新将关键词提取,接下来提取的时候将项目简介,项目名称一起作为一个句子利用jieba分词分出来。

标签:数据分析,分类,提取,关键词,---,文本
From: https://www.cnblogs.com/copyjames/p/18059526

相关文章

  • 洛谷题单指南-搜索-P2404 自然数的拆分问题
    原题链接:https://www.luogu.com.cn/problem/P2404题意解读:将整数拆成若干数相加,按字母序输出,可以转换成从小到大往数组填数的问题,直到填的数之和等于n。解题思路:通过DFS,每次填一个数,填数时从1~n-1逐个填注意两个条件不能继续DFS:1、将填的数之和超过n2、将填的数小于上一次填......
  • Vue学习笔记39--创建Vue脚手架
    创建Vue脚手架1.Vue脚手架是Vue官方提供的标准开发工具(开发平台)2.脚手架最新版本4.x3.文档:https://cli.vuejs.org/zh/操作步骤:第一步:(仅第一次执行):全局安装@vue/cli(commandlineinterface)注:安装钱建议先设置镜像==》npmconfigsetregisterhttps://registry.npm.taoba......
  • TS-any vs unknown
    相同点:1.都是TS系统是顶层类型:any,unknown2.任何类型的值都可以赋值给该类型 any存在的问题:1.类型推断问题:any类型的变量不再进行类型检查,失去了TS的意义;所以对于那些类型不明显的变量,一定要显式声明类型,防止被推断为any2.污染问题:any类型的变量可以赋值给任意类型......
  • 高德接口-前端本地开发调用代理
    请求中api:exportfunctionjPAmapApi(data){returnrequest({url:'/v4/grasproad/driving?key=b03c9b62740951fd7fb9bba7f5be1c4f',method:'post',data:data,headers:{'content-type':'applicatio......
  • Docker使用docker-compose.yml文件(六)
    前言前面介绍的都是单个容器部署,对于多容器部署也是一个个部署。这里Docker开发了docker-compose.yml。它是一个YAML格式的文件,用于定义和运行多容器的Docker应用程序。它允许你使用单个命令来启动、停止和重启应用程序,以及管理应用程序依赖的服务。一、配置yml文件versio......
  • 全新QSiC 1200V 模块:GCMS020A120S1-E1、GCMS040A120S1-E1、GCMX020B120S1-E1、GCMS020
    全新QSiC1200VSOT-227SiC模块,提升能源标准,这些超高效模块支持电动汽车、医疗电源和太阳能大功率应用的创新设计。特点低开关损耗低结至外壳热阻非常坚固,易于安装直接安装到散热器上(隔离封装)超低损耗的高频操作SiCSBDs的零反向恢复电流SiCMOSFETs的小关断尾电流低杂散电感......
  • spring - mvc
    springmvc1.@Autowired@ComponentpublicclassFooService{@AutowiredprivateFooFormatterfooFormatter;}2.通过@Qualifier自动装配例如,让我们看看如何使用@Qualifier注释来指示所需的bean。首先,我们将定义2个Formatter类型的bean:@Component("fooFo......
  • element-ui 文件上传问题记录
    今天做用element文件上传组件遇到个问题,部分代码如下:   后台代码 测试文件怎么都传不到后台去,用postman上传又可以。最后喊前端同事看了下,前端取文件的时候不能直接写,要取file.raw,像这样: 然后就可以了......
  • K8S - 配置资源管理
    配置资源管理ConfigMap资源(简称给cm)用于保存配置文件,环境变量等不需要加密的信息。它可以实现将配置信息与应用程序解耦    kubectlrunpod-demo--image=soscscs/myapp--port=80--dry-run=client-oyaml>pod-demo.yaml  kubectlcreatecmcm-de......