一、选题的背景
共享单车在当今社会中扮演着重要角色,对城市交通、环境、个人出行习惯等方面产生了显著影响。通过分析这些数据,可以了解共享单车对城市生活的影响,对交通拥堵、空气质量改善、促进健康出行提供便利。通过分析共享单车数据,可以了解技术创新在这一领域的应用情况,探索改进现有技术或者开发新技术的可能性。
数据分析目标:单车使用量,游客用户和注册用户数量,假期和工作日使用情况的差异,每个季节的单车使用情况。
数据来源:http://www.idatascience.cn/dataset-detail?table_id=100102
数据集:gongxiang.csv
二、大数据分析设计方案
数据内容与数据特征分析总共16个字段:
数据分析的课程设计方案概述:
获取共享单车数据集,并使用数据清洗处理缺失值、异常值、重复项,确保数据质量,然后对数据进行可视化分析。
实现思路:使用Python的Pandas库进行数据清洗、整合和初步探索,并使用Plotly库进行数据可视化分析。
技术难点:处理大规模数据时可能遇到内存和计算资源限制;分析出来的图像模型的准确性相差太多,需要适当优化。
三、大数据分析实验
数据源:采用的爱数科上开放的数据集http://www.idatascience.cn/dataset-detail?table_id=100102
数据集清洗
先读取数据集共享单车需求数据集 ,数据集包含在共享系统中出租的共享单车的数量,以及相应的天气数据,工作日和假日信息,在处理缺失值、异常值、重复项,确保数据质量。
import pandas as pd
# 读取CSV文件
df = pd.read_csv('gongxiang.csv')
# 查看数据
print(df.head())
# 输出数据的基本统计信息
print(df.describe())
# 将清洗后的数据保存到新的CSV文件中
df.to_csv('new_gongxiang.csv', index=False)
实验效果:
读取数据查看游客用户和注册用户的平均值
import pandas as pd
import numpy as np
# 读取CSV文件
df = pd.read_csv('gongxiang.csv')
# 查看数据的前5行
print(df.head())
# 检查缺失值
print("Number of missing values in each column:")
print(df.isnull().sum())
# 假设我们将缺失值填充为该列的平均值
df.fillna(df.mean(), inplace=True)
# 计算两列的平均值。
average = df[['casual', 'registered']].mean(axis=1)
# 输出平均值
实验效果:
四、可视化分析
利用直方图组件分析共享单车使用量
import pandas as pd
import matplotlib.pyplot as plt
# 读取CSV文件
file_name = 'gongxiang.csv'
data = pd.read_csv(file_name)
if 'cnt' not in data.columns:
print(f"Error: Column 'temperature' not found in {file_name}")
else:
# 绘制单车使用量分布的直方图
plt.figure(figsize=(10, 6))
plt.hist(data['cnt'], bins=30, edgecolor='black', color='blue', alpha=0.7)
plt.title('Cnt Distribution')
plt.xlabel('Cnt')
plt.ylabel('Frequency')
plt.grid(True)
plt.show()
由上图可以看到,租车数量在4000-5000这个区间最多
标签:课程设计,csv,python,爬虫,df,plt,共享,单车,数据 From: https://www.cnblogs.com/laihongwei/p/17929122.html