首页 > 其他分享 >01.大数据技术与应用课堂测试2-数据初级分析分类

01.大数据技术与应用课堂测试2-数据初级分析分类

时间:2024-04-16 21:25:06浏览次数:17  
标签:01 String df 数据 industry 行业 plt 课堂 data

 

一、 原始数据:

 

二、 地域维度标准化:

地域属性在科技成果分析中作为一个重要维度,其标准取值非常必要,目前我国采用的标准行政区划代码由两部分组成,一部分为行政区划编码,六位数字组成,前两位表示省编码,中间两位代表市编码,后两位表示所属市的区或县编码。一部分为行政区划名称。两部分在数据分析中经常用到,行政区划编码的树形结构在实现数据统计时的上钻和下卷功能尤其方便。

行政区划是国家标准中间有调整,需要根据年度确定该年度执行的国家标准。

要求在上次结果表的基础之上完成地域取值标准化。

(1) 增加行政区划编码列,具体取值与国家发布的行政区划标准相对应,例如130102表示河北省石家庄市长安区;

(2) 规范地域取值,统一命名规则为:河北省石家庄市长安区。没有地域属性要根据单位名称或单位地址确定地域数值,尽量规范到区县一级,如果不行至少到市一级。参考方法:可以通过百度地图或高德地图接口查询或者通过网络爬取方式补充完整地域属性信息。

三、 数据初级分析-分类

1.1京津冀科技成果表中字段比较完整其中关键字应用行业字段行业代码在科技成果数据分析中经常使用。1.2河北科技成果2015年第1-2-3期(技术)表中有行业字段,缺少关键字、行业代码。1.3天津科技成果(技术)表中上述三个字段就没有,表中的所属技术领域字段与行业相似,但并不是国家标准规范。

(1)补充关键字字段,从项目简介中提取关键字,补充完成1.2、1.3表中的关键字字段。

(2)补充应用行业字段和行业代码行业国家标准《国民经济行业分类与代码中间有调整,需要根据年度确定该年度执行的国家标准。

根据1.1和1.2表中行业分类,根据项目名称、关键字、项目简介字段,采用机器学习相关算法,补充1.3表中的行业分类和行业代码。

import java.sql.*;

public class thedataqingxi {

public static void main(String[] args) {
// 数据库连接信息
String url = "jdbc:mysql://localhost:3306/2024.2.28test";
String username = "root";
String password = "123456";

try {
// 连接数据库
Connection connection = DriverManager.getConnection(url, username, password);

// 执行数据清洗操作
cleanData(connection);

// 关闭数据库连接
connection.close();
} catch (SQLException e) {
e.printStackTrace();
}
}

private static void cleanData(Connection connection) throws SQLException {
// SQL查询语句,查找重复记录并保留一条
String findDuplicatesSQL = "SELECT MIN(ID) as minID, name, danwei " +
"FROM huizongbiao " +
"GROUP BY name, danwei " +
"HAVING COUNT(*) > 1";

// SQL删除语句,删除除最小ID外的重复记录
String deleteDuplicatesSQL = "DELETE FROM huizongbiao WHERE ID <> ? AND name = ? AND danwei = ?";

// 执行查询
Statement statement = connection.createStatement();
ResultSet resultSet = statement.executeQuery(findDuplicatesSQL);

// 遍历查询结果
while (resultSet.next()) {
int minID = resultSet.getInt("minID");
String name = resultSet.getString("name");
String danwei = resultSet.getString("danwei");

// 执行删除操作
PreparedStatement preparedStatement = connection.prepareStatement(deleteDuplicatesSQL);
preparedStatement.setInt(1, minID);
preparedStatement.setString(2, name);
preparedStatement.setString(3, danwei);

preparedStatement.executeUpdate();
preparedStatement.close();
}

// 关闭Statement和ResultSet
statement.close();
resultSet.close();
}
}

数据可视化展示

import pandas as pd
import matplotlib.pyplot as plt

# 设置中文显示
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 读取CSV文件
df = pd.read_csv('huizongbiao.csv')

# 按地区分组并计算各地区的应用行业占比
hebei_data = df[df['shengshiqu'] == '河北']
beijing_data = df[df['shengshiqu'] == '北京']
tianjin_data = df[df['shengshiqu'] == '天津']

def plot_line(data, title):
# 计算应用行业占比
industry_counts = data['yingyonghangye'].value_counts()

# 只保留前五,其余用"其他"代指
top_industries = industry_counts.head(5)
other_count = industry_counts[5:].sum()
top_industries['其他'] = other_count

total_count = len(data)
industry_percentages = top_industries / total_count * 100

# 绘制折线图
plt.figure(figsize=(10, 6))
plt.plot(industry_percentages.index, industry_percentages.values, marker='o')
plt.title(f'{title} - 行业占比')
plt.xlabel('应用行业')
plt.ylabel('占比 (%)')
plt.xticks(rotation=45)
plt.grid(True)
plt.show()

# 绘制河北地区的图表
plot_line(hebei_data, '河北')

# 绘制北京地区的图表
plot_line(beijing_data, '北京')

# 绘制天津地区的图表
plot_line(tianjin_data, '天津')

 

四、 数据可视化展示

(1) 根据地域属性实现数据的可视化展示,可以看到-市-区县三级数据下钻呈现的项目数量。

(2) 结合行业分类,显示省-市-区县不同的项目类型的数量。

(3) 分析京津冀三个省市科技成果中存在的优势和劣势。

 

 

标签:01,String,df,数据,industry,行业,plt,课堂,data
From: https://www.cnblogs.com/kk4458/p/18139212

相关文章

  • web server apache tomcat11-01-官方文档入门介绍
    前言整理这个官方翻译的系列,原因是网上大部分的tomcat版本比较旧,此版本为v11最新的版本。开源项目同时也为从零手写实现tomcat提供一些基础和特性的思路。minicat别称【嗅虎】心有猛虎,轻嗅蔷薇。系列文章webserverapachetomcat11-01-官方文档入门介绍webserve......
  • 数据库工程师项目专业能力提升(数据库从业必备)
    数据库工程师项目专业能力提升(从业人员必备)课程,风哥本课程可以掌握数据库工程师日常工作情况,数据库健康巡检类,数据库巡检前/巡检中/巡检后的工作,数据库健康检查-每天检查(如何编写每天的报告),数据库健康检查-月度巡检(如何编写月度巡检报告),数据库服务年度总结(如何编写年度总结报告),数......
  • 为什么python的数据库语句要用参数化构造的方式
    以下是一个python的数据库插入语句self.cur.execute('''INSERTINTObooks(url,title,product_type,price_excl_tax,price_incl_tax,availability,num_reviews,rating,category,describe)VALUES(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)&......
  • P3523 [POI2011] DYN-Dynamite
    P3523[POI2011]DYN-Dynamite二分+树上贪心首先这题可以二分\(K\),转化为判定性问题:是否存在\(m\)个点使得所有关键节点的\(dis\leK\)。那么意思就是,每个点可以控制\(K\)距离以内的关键点。那么我们可以从叶子节点向上贪心,实在覆盖不到了再选点。那么我们要判断该点是......
  • 进阶数据结构
    学到哪写到哪说是既然打ACM可以用板子,我就不用再隔几天敲一遍板子了只能说赢麻了线段树线段树是一种利用二分思想的数据结构,主要用于区间修改以及查询问题。它的基本思想是可以用一下一个图来表示,其中最底层的是原数组简单来说,对于每个区间的修改或者查询操作,我们都会将它......
  • 3-01. 建造图纸数据及 ItemTooltip 显示资源物品
    添加木头椅子图纸创建BulePrintDataList_SO添加Chair预制体实例化BluePrintDataList_SO20个针叶木头,换一个椅子修改ItemTooltip修改InventoryManager修改ItemTooltip修改ShowItemTooltip修改InventoryManager修改PlayerBag修改ShowItemToolti......
  • STM32:HAL多通道ADC数据采集
    1、配置ADC,设置5个通道采集2、使能DMA设置为循环模式 生成工程后编写函数1、校准ADC,开启DMA接收,在main函数初始化部分调用#defineADC_MAX_NUM5#defineBTN_BUFF_LEN100staticuint16_tdma_adc_data[BTN_BUFF_LEN*ADC_MAX_NUM];1/**2*@brief校准adc,开......
  • 【视频】R语言支持向量回归SVR预测水位实例讲解|附代码数据
    全文链接:https://tecdat.cn/?p=35914原文出处:拓端数据部落公众号分析师:MiaoqiaoWang当我们面对样本需要建立相应模型时,使用传统统计方法建立模型需要大量的样本数据,只有在样本量足够大时,该模型才具有一定的可靠性,而实际实验中,不一定每次实验都拥有足够大的样本,甚至是小样本,这......
  • R语言预测期货波动率的实现:ARCH与HAR-RV与GARCH,ARFIMA模型比较|附代码数据
    全文下载链接:http://tecdat.cn/?p=3832最近我们被客户要求撰写关于期货波动率的研究报告,包括一些图形和统计输出。在本文中,波动率是众多定价和风险模型中的关键参数,例如BS定价方法或风险价值的计算。在这个模型中,或者说在教科书中,这些模型中的波动率通常被认为是一个常数然而,情......
  • 用数据告诉你出租车资源配置是否合理
    原文链接:http://tecdat.cn/?p=3825最近我们被客户要求撰写关于出租车的研究报告,包括一些图形和统计输出。互联网+下不同时空如何建立合适的指标分析出租车“供求匹配”的程度?由于出租车供求匹配,以及一系列的补贴方案涉及到可行性的问题,我们采用出租车轨迹数据做出相应的解答。......