首页 > 其他分享 >课堂测试试卷—数据分析练

课堂测试试卷—数据分析练

时间:2024-03-13 10:14:57浏览次数:486  
标签:数据分析 科技成果 试卷 行政区划 地域 关键字 表中 课堂 行业

 

 

 

 

 

二、 地域维度标准化:

地域属性在科技成果分析中作为一个重要维度,其标准取值非常必要,目前我国采用的标准行政区划代码由两部分组成,一部分为行政区划编码,六位数字组成,前两位表示省编码,中间两位代表市编码,后两位表示所属市的区或县编码。一部分为行政区划名称。两部分在数据分析中经常用到,行政区划编码的树形结构在实现数据统计时的上钻和下卷功能尤其方便。

行政区划是国家标准中间有调整,需要根据年度确定该年度执行的国家标准。

要求在上次结果表的基础之上完成地域取值标准化。

(1) 增加行政区划编码列,具体取值与国家发布的行政区划标准相对应,例如130102表示河北省石家庄市长安区;

(2) 规范地域取值,统一命名规则为:河北省石家庄市长安区。没有地域属性要根据单位名称或单位地址确定地域数值,尽量规范到区县一级,如果不行至少到市一级。参考方法:可以通过百度地图或高德地图接口查询或者通过网络爬取方式补充完整地域属性信息。

三、 数据初级分析-分类

1.1京津冀科技成果表中字段比较完整其中关键字应用行业字段行业代码在科技成果数据分析中经常使用。1.2河北科技成果2015年第1-2-3期(技术)表中有行业字段,缺少关键字、行业代码。1.3天津科技成果(技术)表中上述三个字段就没有,表中的所属技术领域字段与行业相似,但并不是国家标准规范。

(1)补充关键字字段,从项目简介中提取关键字,补充完成1.2、1.3表中的关键字字段。

(2)补充应用行业字段和行业代码行业国家标准《国民经济行业分类与代码中间有调整,需要根据年度确定该年度执行的国家标准。

根据1.1和1.2表中行业分类,根据项目名称、关键字、项目简介字段,采用机器学习相关算法,补充1.3表中的行业分类和行业代码。

四、 数据可视化展示

(1) 根据地域属性实现数据的可视化展示,可以看到-市-区县三级数据下钻呈现的项目数量。

(2) 结合行业分类,显示省-市-区县不同的项目类型的数量。

(3) 分析京津冀三个省市科技成果中存在的优势和劣势。

 

标签:数据分析,科技成果,试卷,行政区划,地域,关键字,表中,课堂,行业
From: https://www.cnblogs.com/yvxiaoshuai/p/18069980

相关文章

  • 三月十二号 课堂测试
    今天建民老师留的任务的连接数据库进行添加数据库操作页面代码<?xmlversion="1.0"encoding="utf-8"?><LinearLayoutxmlns:android="http://schemas.android.com/apk/res/android"xmlns:app="http://schemas.android.com/apk/res-auto"......
  • datawhale-动手学数据分析task1笔记
    动手学数据分析task1第一节:数据载入及初步观察载入数据数据集下载导入numpy库和pandas库。importnumpyasnpimportpandasaspd载入数据。相对路径载入数据。df=pd.read_csv('train.csv')绝对路径载入数据。path=os.path.abspath('train.csv')df......
  • python数据分析 datawhale
    数据分析数据载入及初步观察载入数据导入Numpy和pandasimportnumpyasnpimportpandasaspd使用相对路径和绝对路径载入数据df=pd.read_csv('train.csv')df=pd.read_csv('/Users/chenandong/Documents/datawhale数据分析每个人题目设计/招募阶段/第一单元项目集......
  • 当利用数据分析和改进过头了怎么办?
    当利用数据分析和改进过头时,可能会出现几种情况:过度依赖数据:有时候,团队可能会过度依赖数据,忽视其他重要因素,如用户反馈、创意灵感等。这可能导致创新的缺失和决策的僵化。数据误解:有时候,数据分析可能会被错误地解释或应用。这可能会导致错误的结论和不良的决策。局限性:数据分析......
  • 常用数据分析模型与方法
    一、背景数据分析中,会有一些分析方法来处理不同的问题。简单总结一下。方法汇总:https://share.mindmanager.com/#publish/5v_9k6Z9J3gqPL9sQwAGGKL5DgNrclp4iq_q8C7L    方法链接: 二、RFM分析2.1 定义R(Recency): 客户距离最近的一次采购时间的间隔。F( Freq......
  • 课堂练习 最大值 原题链接+题解
    题目可以去我的洛谷题库看:https://www.luogu.com.cn/problem/U412348(带数据,真难出)题解考虑两种解题方式。由于题目范围较小,可以check+暴力,如果范围大一点,可以check+二分答案。先讲check函数,小学四年级数学书说了,这种问题也被它叫做“铺地砖”问题,计算剪出的正方形数量的方......
  • 课堂笔记2
    define_CRT_SECURE_NO_WARNINGSinclude<stdio.h>//////冒泡排序该方法只能进行整数的排序//voidBubbleSort(intarr[],intsz)//{//inti=0;//intj=0;//for(i=0;i<sz-1;i++)//{//for(j=0;j<sz-1-i;j++)......
  • API电商接口大数据分析与数据挖掘 (商品详情店铺)
    API接口、数据分析以及数据挖掘在商品详情和店铺相关的应用中,各自扮演着重要的角色。以下是关于它们各自的功能以及如何在商品详情和店铺分析中协同工作的简要说明。API接口API(应用程序接口)是一种允许不同软件应用程序相互通信的方式。在商品详情和店铺分析的上下文中,API接口可......
  • 大数据分析---关键词分类任务
    现在的任务需求是根据关键词(以逗号分割的一列)对类别分类。问题:1.样本数据不够多,并且关键词来源于之前的csv文件的某一列的提取,可能本身就不太准确。2.数据本身有空值等不合理的字段。3.数据准备阶段需要将将中文文本转化为encoding编码解决方案:经过查阅资料可以选择使用朴素......
  • 大三下入学测试---数据分析练习
    分三部分:关键字提取,利用机器学习算法实现文本分类,获取行政区划编码,数据下钻后续再说关键字提取:利用jieba分词实现读取数据库的某一列,并对该列分词。importpymysqlimportpandasaspdfromjieba.analyseimportextract_tags#创建数据库连接db=pymysql.connect(host=......