首页 > 编程语言 >【python爬虫课程设计】大数据分析——共享单车使用量可视化分析

【python爬虫课程设计】大数据分析——共享单车使用量可视化分析

时间:2023-12-26 19:25:44浏览次数:40  
标签:课程设计 csv python 爬虫 df plt 共享 单车 数据

一、选题的背景

共享单车在当今社会中扮演着重要角色,对城市交通、环境、个人出行习惯等方面产生了显著影响。通过分析这些数据,可以了解共享单车对城市生活的影响,对交通拥堵、空气质量改善、促进健康出行提供便利。通过分析共享单车数据,可以了解技术创新在这一领域的应用情况,探索改进现有技术或者开发新技术的可能性。

数据分析目标:单车使用量,游客用户和注册用户数量,假期和工作日使用情况的差异,每个季节的单车使用情况。

数据来源:http://www.idatascience.cn/dataset-detail?table_id=100102

数据集:gongxiang.csv

二、大数据分析设计方案

数据内容与数据特征分析总共16个字段:

数据分析的课程设计方案概述:

获取共享单车数据集,并使用数据清洗处理缺失值、异常值、重复项,确保数据质量,然后对数据进行可视化分析。

实现思路:使用Python的Pandas库进行数据清洗、整合和初步探索,并使用Plotly库进行数据可视化分析。

技术难点:处理大规模数据时可能遇到内存和计算资源限制;分析出来的图像模型的准确性相差太多,需要适当优化。

三、大数据分析实验

数据源:采用的爱数科上开放的数据集http://www.idatascience.cn/dataset-detail?table_id=100102

数据集清洗

先读取数据集共享单车需求数据集 ,数据集包含在共享系统中出租的共享单车的数量,以及相应的天气数据,工作日和假日信息,在处理缺失值、异常值、重复项,确保数据质量。

import pandas as pd  
# 读取CSV文件  
df = pd.read_csv('gongxiang.csv')  
# 查看数据  
print(df.head())  
# 输出数据的基本统计信息  
print(df.describe())  
# 将清洗后的数据保存到新的CSV文件中  
df.to_csv('new_gongxiang.csv', index=False)

实验效果:

读取数据查看游客用户和注册用户的平均值

import pandas as pd  
import numpy as np  
# 读取CSV文件  
df = pd.read_csv('gongxiang.csv')  
# 查看数据的前5行  
print(df.head())  
# 检查缺失值  
print("Number of missing values in each column:")  
print(df.isnull().sum())    
# 假设我们将缺失值填充为该列的平均值  
df.fillna(df.mean(), inplace=True)  
# 计算两列的平均值。  
average = df[['casual', 'registered']].mean(axis=1)  
# 输出平均值 

实验效果:

四、可视化分析

利用直方图组件分析共享单车使用量

import pandas as pd  
import matplotlib.pyplot as plt  
# 读取CSV文件  
file_name = 'gongxiang.csv'  
data = pd.read_csv(file_name)   
if 'cnt' not in data.columns:  
    print(f"Error: Column 'temperature' not found in {file_name}")  
else:  
    # 绘制单车使用量分布的直方图  
    plt.figure(figsize=(10, 6))  
    plt.hist(data['cnt'], bins=30, edgecolor='black', color='blue', alpha=0.7)  
    plt.title('Cnt Distribution')  
    plt.xlabel('Cnt')  
    plt.ylabel('Frequency')  
    plt.grid(True)  
plt.show()

由上图可以看到,租车数量在4000-5000这个区间最多

标签:课程设计,csv,python,爬虫,df,plt,共享,单车,数据
From: https://www.cnblogs.com/laihongwei/p/17929122.html

相关文章

  • python opencv保存摄像头视频为.mp4格式
     importcv2#0代表的是电脑上的默认摄像头cap=cv2.VideoCapture(0)#创建VideoWriter对象,第二个参数是帧率,第三个参数是视频的宽度和高度,第四个参数是输出视频的格式out=cv2.VideoWriter('output.mp4',cv2.VideoWriter_fourcc(*'mp4v'),20.0,(640,480))while(cap......
  • 软件测试/测试开发|Python selenium CSS定位方法详解
    简介CSS选择器是一种用于选择HTML元素的模式。它允许我们根据元素的标签名、类名、ID、属性等属性进行选择。CSS选择器的语法简单而灵活,是前端开发中常用的定位元素的方式。selenium中的css定位,实际是通过css选择器来定位到具体元素,css选择器来自于css语法。CSS定位有以下显著......
  • Python实战:从数据库到Excel的复杂查询结果处理【上】
    一、背景年底了,运营同学要做报告,于是来找我要数据,而数据来源于MySQL数据库的两个表,两个表中的数据无法一一对应,数据未能通过SQL直接查询出来,需要将表1中的查询结果传参到表2的查询SQL的条件中。数据量较大,若将查询结果复制到excel中,之后再去一一手动匹配的话,这工作量也是巨大的。于......
  • Python 潮流周刊第 31 期(摘要)
    本周刊由Python猫出品,精心筛选国内外的250+信息源,为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景:帮助所有读者精进Python技术,并增长职业和副业的收入。以下是本期摘要:......
  • Python中全局解释器GIL的相关问题
    1、全局解释器锁(GIL)的影响Python中可以实现多线程,但是受到全局解释器锁(GIL)的限制,因此在某些情况下,多线程并不能实现真正的并行执行。这是因为在CPython中,由于GIL的存在,同一时刻只能有一个线程执行Python字节码(解释器层面的限制)。本质上来说,GIL只会影响解释器层面运行python......
  • python .gitignore 文件模板 & 相关注意事项
    参考:https://blog.csdn.net/qq_38122800/article/details/132663030https://blog.csdn.net/weixin_42289273/article/details/122912938https://zhuanlan.zhihu.com/p/22494724在使用git进行代码版本管理时,对于不想提交的部分内容,可以通过.gitignore文件来配置提交时......
  • python中for循环跟while循环的对比(加深记忆)
    while循环和for循环的对比 通过对比更能理解循环在循环控制上:    whlie循环可以自定循环条件,并自行控制    for循环不可以自定循环条件,只可以一个个从容器内取出数据在无限循环上:     while循环可以通过条件控制做到无限循环      fo......
  • 【Python数据分析课程设计】——员工离职原因大数据分析
    一、选题的背景    随着社会经济的发展和科学技术的进步,员工离职现象越来越普遍。员工离职不仅会影响企业的运营和发展,也会对员工的职业生涯产生影响。因此,探究员工离职的原因是十分必要的。本选题旨在通过数据分析,深入挖掘员工离职的原因,为企业管理者提供决策支持,同时帮......
  • Python代码中的偏函数
    本文介绍了在Python中使用偏函数partial的方法,并且介绍了两个使用partial函数的案例,分别是concurrent并行场景和基于jax的自动微分场景。在这些相关的场景下,我们用partial函数更多时候可以使得代码的可读性更好,在性能上其实并没有什么提升。如果不想使用partial函数,类似的......
  • Python追踪内存占用
    本文介绍了一个工具tracemalloc,可以在Python代码的执行过程中对每一步的内存占用进行记录。技术背景当我们需要对python代码所占用的内存进行管理时,首先就需要有一个工具可以对当前的内存占用情况进行一个追踪。虽然在Top界面或者一些异步的工具中也能够看到实时的内......