首页 > 其他分享 >地铁数据挖掘

地铁数据挖掘

时间:2023-05-17 11:01:10浏览次数:28  
标签:name nn int text strip 地铁 time 数据挖掘

最近在看图神经网络的视频,里面使用了北京上海的地铁信息,这里整了一下郑州的地铁信息,直接上代码

# 引包
from bs4 import BeautifulSoup
import requests

url = 'http://www.zzmetro.com/lines/query/operating_hours'
html = requests.get(url).text
soup = BeautifulSoup(html)

# 看地铁线的名字
name_arr = []
for i in soup.select('.lines_div .lines_ul_div')[0].find_all('p'):
    # print(i.text)
    name_arr.append(i.text)

# 找每条地铁线的沿线站点,以及用末班车的到站时间来计算邻近两站之间的通勤时间
zong_arr = []
for name, x in zip(name_arr, soup.select('.line_site .table_lx_div')):
    # if name == '7号线':
    #     break
    ditie_name = []
    ditie_time = []
    ll_time = 0
    rr_time = 0

    a1 = 0
    a2 = 0
	
	# 找到每行的数据
    for i in x.find_all('tr')[2:]:
        nn = i.find_all('td')
		
		# 去掉无效值
        if nn[2].text.strip() == '——' and nn[4].text.strip() == '——':
            continue
		
		# 记录时间
        l_time = nn[2].text.strip().split(':')
        r_time = nn[4].text.strip().split(':')

		# 计算时间
        if not l_time[0] == '——' and not l_time[0] == '---':
            if l_time[0] == '0':
                l_time[0] = '24'
            a1 = abs(int(l_time[0]) * 60 + int(l_time[1]) - ll_time)
            ll_time = int(l_time[0]) * 60 + int(l_time[1])

        if not r_time[0] == '——' and not r_time[0] == '---':
            if r_time[0] == '0':
                r_time[0] = '24'
            a2 = abs(int(r_time[0]) * 60 + int(r_time[1]) - rr_time)
            rr_time = int(r_time[0]) * 60 + int(r_time[1])
		# 打印信息
        print(nn[0].text.strip(), nn[2].text.strip(), nn[4].text.strip(), name, min(a1, a2))
        
        ditie_name.append(nn[0].text.strip())
        ditie_time.append(min(a1, a2))
        a1 = a2 = 100
    # 将信息存储成csv
    df = pd.DataFrame()
    df['前一站'] = ditie_name[:-1]
    df['后一站'] = ditie_name[1:]
    df['地铁线'] = name
    df['时间分钟'] = ditie_time[1:]
    zong_arr.append(df)

# 拼接信息
df = pd.concat(zong_arr).reset_index().drop(['index'], axis=1) 

`在这里插入图片描述

标签:name,nn,int,text,strip,地铁,time,数据挖掘
From: https://www.cnblogs.com/heKaiii/p/17407909.html

相关文章

  • 郑州地铁计费系统需求分析
    郑州地铁计费系统的需求分析产品愿景栏目内容说明目标用户上班人员,居民,学生,游客,目标用户不止这些,可根据使用情况进行添加目标用户的需要或机会其他城市地铁公司可以实现多种服务,但并没有可以计算起始站到终点站两站之间的费用的功能。用户可以通过计算两站之间的费用来了解地铁的......
  • COMP3425数据挖掘
    COMP3425辅导、辅导c/c++,Python编程COMP3425andCOMP8410DataMiningS12023Assignment2:DescriptionofDataDataandMetadataThedatasuppliedfortheassignmentarisesfromTheAustralianDataArchive’sANUPollDataverse[1].Asastudentofthecourse,you......
  • 数据挖掘-电商产品评论数据情感分析
    importpandasaspdimportreimportjieba.possegaspsgimportnumpyasnp#去重,去除完全重复的数据reviews=pd.read_csv("./reviews.csv")reviews=reviews[['content','content_type']].drop_duplicates()content=reviews['co......
  • 【数据挖掘&机器学习】招聘网站的职位招聘数据的分位数图、分位数-分位数图以及散点图
    一.本次需求背景本文主题:招聘网站的职位招聘数据的分位数图、分位数-分位数图以及散点图、使用线性回归算法拟合散点图处理详解之前的文章我们已经对爬取的数据做了清洗处理,然后又对其数据做了一个薪资数据的倾斜情况以及盒图离群点的探究。我们这次的需求是:使用散点图、使用......
  • 数据挖掘算法汇总
    参考:http://wenku.baidu.com/view/c79058d480eb6294dd886c8c.html     http://www.doc88.com/p-7344376788072.html......
  • 浅谈电力监控在地铁运维中的应用
     摘要:随着我国工业化进程的不断推进,我国监控系统也实现了长足的发展。以往传统的地铁监控模式已经无法满足当前需求,将电力监控系统和地铁综合监控系统已经进行资源整合,有效实现了地铁信息的共享与互动,综合提高了地铁自动化监控水平,保证了地铁运行的可靠与安全。  关键词:电力监......
  • python数据挖掘与分析实战__电子商务网站用户行为分析及服务推荐
    importosimportpandasaspd#修改工作路径到指定文件夹os.chdir("D:/CourseAssignment/AI/CollectWebDate/")#第一种连接方式fromsqlalchemyimportcreate_engineengine=create_engine('mysql+pymysql://root:123456@localhost:3306/test?charset=utf8')sql......
  • Python数据挖掘之关联规则学习
    一、关联算法应用介绍关联规则分析是数据挖掘中最活跃的研究方法之一,目的是在一个数据集中找出各项之间的关联关系,而这种关系并没有在数据中直接表示出来。常见于与购物篮分析。常用关联算法表如下,简单理解的话,就是测算某几项东西一起出现的概率。比如:如果测算得出,大量订单中出......
  • 洛谷 P8456 -「SWTR-8」地地铁铁(图论+结论)
    挺有意思的结论题,结论的证明比较复杂。据出题人说他大概想了几天几夜才证出来,所以本篇题解并不详细给出结论证明,如果有兴趣可以自己去看出题人的题解:https://www.luogu.com.cn/blog/AlexWei/solution-p8456。首先涉及到简单路径,肯定往双连通分量的方向思考。因此我们首先建出圆方......
  • 大数据分析师、数据挖掘工程师和科学研究,需要看哪些书籍
    数据分析师:在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询,商务智能,出分析报告,互联网公司的产品经理差不多类型了,统计学能力要求高,SPSS、SAS、R、SQL。经典图书推荐:《概率论与数理统计》、《统计学》推荐DavidFreedman版、《业务建模与数据挖掘》、《数据挖掘导论》、......