首页 > 其他分享 >数据清洗到站点聚类,全面解析伦敦共享单车使用规律!

数据清洗到站点聚类,全面解析伦敦共享单车使用规律!

时间:2024-05-25 17:33:53浏览次数:31  
标签:non null End 站点 Start 776527 聚类 import 单车

1.项目背景

随着共享单车在全球范围内的普及,城市交通出行模式发生了巨大变化。伦敦作为国际化大都市,交通拥堵问题日益严重,共享单车作为一种绿色、环保、便捷的出行方式,逐渐成为解决交通问题的重要组成部分,然而,要实现共享单车系统的高效运营,必须深入了解用户的使用习惯和需求。本项目对伦敦共享单车数据进行了全面分析,涵盖了数据清洗、特征工程(构建新特征)、骑行高峰期分析、站点流量分析,以及通过聚类分析将800个站点划分为5类,并对每一类站点提出建议,最后通过方差分析探讨了影响共享单车流量的因素,通过这些步骤,可以识别高频使用的时间段和站点,为运营商提供优化调度和资源分配的科学依据。

2.数据说明

字段 说明
Number 每次出行的唯一标识符(Trip ID)
Start Date 出行开始的日期和时间
Start Station Number 起始站的标识符
Start Station 起始站的名称
End Date 出行结束的日期和时间
End Station Number 终点站的标识符
End Station 终点站的名称
Bike Number 所使用自行车的唯一标识符
Bike Model 所使用自行车的型号
Total Duration 出行的总时间(时分秒)
Total Duration (ms) 出行的总时间(毫秒)

3.Python库导入及数据读取

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import networkx as nx
import matplotlib.colors as mcolors
import numpy as np
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.metrics import silhouette_score
import scipy.stats as stats
import warnings
warnings.filterwarnings('ignore')
from pylab import mpl
mpl.rcParams["font.sans-serif"] = ["SimHei"] # 设置显示中文字体 宋体
mpl.rcParams["axes.unicode_minus"] = False #字体更改后,会导致坐标轴中的部分字符无法正常显示,此时需要设置正常显示负号
data = pd.read_csv('D:\Desktop\商业数据分析案例\伦敦共享单车数据集\LondonBikeJourneyAug2023.csv')

4.数据预览及数据处理

# 查看数据维度
data.shape
(776527, 11)
#查看数据信息
data.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 776527 entries, 0 to 776526
Data columns (total 11 columns):
 #   Column                Non-Null Count   Dtype 
---  ------                --------------   ----- 
 0   Number                776527 non-null  int64 
 1   Start date            776527 non-null  object
 2   Start station number  776527 non-null  int64 
 3   Start station         776527 non-null  object
 4   End date              776527 non-null  object
 5   End station number    776527 non-null  int64 
 6   End station           776527 non-null  object
 7   Bike number           776527 non-null  int64 
 8   Bike model            776527 non-null  object
 9   Total duration        776527 non-null  object
 10  Total duration (ms)   776527 non-null  int64 
dtypes: int64(5), object(6)
memory usage: 65.2+ MB
#查看各列缺失值
data.isna().sum()
Number                  0
Start date              0
Start station number    0
Start station           0
End date                0
End station number      0
End station             0
Bike number             0
Bike model              0
Total duration          0
Total duration (ms)     0
dtype: int64
#查看重复值
data.duplicated().sum()
0
# 将起始日期和结束日期转换为日期时间格式
data[

标签:non,null,End,站点,Start,776527,聚类,import,单车
From: https://blog.csdn.net/m0_53814833/article/details/139086559

相关文章

  • R语言上市公司经营绩效实证研究 ——因子分析、聚类分析、正态性检验、信度检验|附代
    全文链接:http://tecdat.cn/?p=32747原文出处:拓端数据部落公众号随着我国经济的快速发展,上市公司的经营绩效成为了一个备受关注的话题。本文旨在探讨上市公司经营绩效的相关因素,并运用数据处理、图示、检验和分析等方法进行深入研究,帮助客户对我国45家上市公司的16项财务指标进行......
  • 借助 CloudFlare 增强站点内容保护防采集
    今天在一位站长的帮助下实测了CloudFlare增强站点内容保护实现防采集的功能,效果那是杠杠的,如果您的站点原创内容比较多的话,明月强烈建议试试CloudFlare这个内容保护,无论是WordPress、Typecho都有非常好的效果,并且几乎没有任何误伤,搜索引擎爬虫蜘蛛更是不会影响。有图......
  • R语言聚类、文本挖掘分析虚假电商评论数据:K-Means(K-均值)、层次聚类、词云可视化|附
    全文链接:http://tecdat.cn/?p=32540原文出处:拓端数据部落公众号聚类分析是一种常见的数据挖掘方法,已经广泛地应用在模式识别、图像处理分析、地理研究以及市场需求分析。本文主要研究聚类分析算法K-means在电商评论数据中的应用,挖掘出虚假的评论数据。本文主要帮助客户研究聚类......
  • 获取iis中站点连接数
    必须要有注册表的访问权限1System.Threading.Tasks.Task.Run(async()=>2{3while(true)4{5try6{7//获取当前站点连接数8varcounter=newSystem.Diagnostics.PerformanceCounter9{......
  • prometheus+grafana 使用blackbox_exporte监控站点url
    1.1下载blackbox_exporte插件在https://github.com/prometheus/blackbox_exporter 上下载blackbox_exporte对应版本安装包,并上传到prometheus服务器 /usr/local 目录1.2安装blackbox_exporte[root@rancherlocal]#tarxvfblackbox_exporter-0.25.0.linux-amd64.tar.g......
  • 记一次网络诈骗者站点的全过程与套路分析
    这是一则漫长又跌宕起伏的故事,小伙伴们请随意就坐,自备茶点;全文包含信息收集与攻克的详细全过程,以及对该类型诈骗思路的分析拆解,以提高防范意识;0x00梦的开始那是一个阳光明媚的晌午,日常的搬砖过程中收到一封公司邮件,看到这熟悉的措辞,又瞄了一眼下面的附件内容,熟悉的气息扑面而来,就......
  • 使用-PHP-和-jQuery-构建游戏化-Web-站点(全)
    使用PHP和jQuery构建游戏化Web站点(全)原文:zh.annas-archive.org/md5/a9c92181e14a72b81ed3a8d14d6790a1译者:飞龙协议:CCBY-NC-SA4.0前言几年前,如果你对某人说“游戏化”,你会得到一个奇怪的表情,好像你在编造一些新东西。也许你会得到一个快速的跟进问题:“嗯?那是什么?”......
  • 数据分享|MATLAB、R基于Copula方法和k-means聚类的股票选择研究上证A股数据|附代码数
    全文链接:http://tecdat.cn/?p=31733最近我们被客户要求撰写关于Copula的研究报告,包括一些图形和统计输出。Copula方法是测度金融市场间尾部相关性比较有效的方法,而且可用于研究非正态、非线性以及尾部非对称等较复杂的相依特征关系因此,Copula方法开始逐渐代替多元GARCH模型的相......
  • R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归|附代码数据
    原文链接:http://tecdat.cn/?p=4146 原文出处:拓端数据部落公众号 最近我们被客户要求撰写关于用电负荷时间序列的研究报告,包括一些图形和统计输出。通过对用电负荷的消费者进行聚类,我们可以提取典型的负荷曲线,提高后续用电量预测的准确性,检测异常或监控整个智能电网(Laurinec等......
  • R语言银行信用数据SOM神经网络聚类实现可视化
    原文链接:http://tecdat.cn/?p=3231原文出处:拓端数据部落公众号  当今社会,“信用”越来越多的人们关注个人或企业,有望获得最高的信用评分,以享受更多的信贷额度,更优惠的利率。 那么我们如何评分信用,并使我们的客户可视化?自组织地图( SOM )是一种无监督的数据可视化技术,可用......