今天完成了第一次数据筛查作业
用idea清洗数据,用python完成分析
# -*- coding: utf-8 -*-标签:10,科技成果,plot,title,plt,counts,data From: https://www.cnblogs.com/YFLZ/p/18066178
import pandas as pd
import matplotlib.pyplot as plt
# 从CSV文件中读取数据
data = pd.read_csv('zongbiao.csv', encoding='utf-8')
# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']
# 按地域分别筛选数据
hebei_data = data[data['地域'] == '河北']
tianjin_data = data[data['地域'] == '天津']
beijing_data = data[data['地域'] == '北京']
# 绘制各省份科技成果行业分布柱状图
plt.figure(figsize=(18, 6))
plt.subplot(1, 3, 1)
hebei_counts = hebei_data['行业'].value_counts()
hebei_counts[:10].plot(kind='bar')
plt.title('河北省科技成果行业分布')
plt.subplot(1, 3, 2)
tianjin_counts = tianjin_data['行业'].value_counts()
tianjin_counts[:10].plot(kind='bar')
plt.title('天津市科技成果行业分布')
plt.subplot(1, 3, 3)
beijing_counts = beijing_data['行业'].value_counts()
beijing_counts[:10].plot(kind='bar')
plt.title('北京市科技成果行业分布')
plt.tight_layout()
plt.show()
# 绘制各省份科技成果行业分布饼状图
plt.figure(figsize=(18, 6))
plt.subplot(1, 3, 1)
hebei_counts[:5].plot(kind='pie', autopct='%1.1f%%')
plt.title('河北省科技成果行业分布')
plt.subplot(1, 3, 2)
tianjin_counts[:5].plot(kind='pie', autopct='%1.1f%%')
plt.title('天津市科技成果行业分布')
plt.subplot(1, 3, 3)
beijing_counts[:5].plot(kind='pie', autopct='%1.1f%%')
plt.title('北京市科技成果行业分布')
plt.tight_layout()
plt.show()