首页 > 编程语言 >python爬虫--爬取各大城市的各个区域的租房信息

python爬虫--爬取各大城市的各个区域的租房信息

时间:2023-06-09 19:55:36浏览次数:35  
标签:租房 python 爬虫 信息 爬取 -- 可视化 数据

一、选题背景

衣食住行是生活的基本需求。衣和食好解决,不喜欢的衣服可以买新的,不好吃的食物可以换一家吃。可是在住宿上,买房和租房的置换成本都相对较高,因此房源选择尤为慎重。作为目前买不起房的自然人,我们一般是通过中介来实现租房的需求比如自如,贝壳找房和链家。链家占据了租赁市场的主导地位,且提供的信息相对公允。但每当我刷超过十个房源,我就会记不起来每一个的信息,也无法可视化去比较很多个房源。所以我通过python来爬取链家网上我所需要的信息,就可以可视化的去比较多个房源对于租房也更有利,可以说是更快更方便的找到心仪的房子。

二、主题式网络爬虫设计方案

1.主题式网络爬虫名称

武汉市各个区域租房信息爬取

2.主题式网络爬虫爬取的内容与数据特征分析

武汉市各个区域租房信息爬取,主要爬取了链家网上武汉市江岸的租房信息的数据。

爬取武汉江岸租赁方式,每月租金,行政区,板块,房屋面积,格局,朝向等信息。

3.主题式网络爬虫设计方案概述(包括实现思路与技术难点)

思路:查看网页的结构,定位目标数据的位置,爬取数据,将数据进行清洗,最后将清洗后的数据进行可视化。

难点:如何应对数据分析可视化缺少模块,如何爬取多个页面的数据,请求异常的处理

三、主题页面的结构特征分析

1.主题页面的结构与特征分析

目标内容界面:

 

2.Htmls 页面解析

 

 

 

 

3.节点(标签)查找方法与遍历方法

 打开网页的源码,然后用鼠标检查工具找打对应大概位置进行查找,先找大标签(这里就是这个content__list),再找其中的小便签。
我们这里把要获取的数据找着,然后在元素中分析。

 

 

遍历方法:for循环

四、网络爬虫程序设计

1.数据爬取与采集

以下为爬取流程图

 

以下为爬取过程的代码

 

 获取了以下信息

4.数据分析与可视化

 以下为爬出的柱形图

 爬取出来的饼状图

 

 

 

5.数据持久化

 

6.将以上各部分的代码汇总,附上完整程序代码

 (1)爬虫代码部分

 

 (2)数据可视化代码

 (3)数据持久化代码

 五、总结

对本课程设计的整体完成情况做一个总结,通过这次利用python代码爬虫爬取网站数据并分析,得出江岸房价低于武汉的平均房价。同时租房面积50到70平米的占比最多,30平米以下的租房人数最少。这让我掌握了最基础的数据分析知识,体验了数据分析的乐趣,包括数据预处理,异常值的查找等,数据的合并和分组及聚合,还有数据可视化来直观的观察,分析数据。同样大多数人面临这样一个挑战:我们认识到数据可视化的必要性,但缺乏数据可视化方面的专业技能。部分原因可以归结于,数据可视化只是数据分析过程中的一个环节,数据分析师可能将精力花在获取数据、清洗整理数据、分析数据、建立模型。

 

 

标签:租房,python,爬虫,信息,爬取,--,可视化,数据
From: https://www.cnblogs.com/zxyq/p/17470136.html

相关文章

  • Kafka关键原理
    日志分段切分条件日志分段文件切分包含以下4个条件,满足其一即可:当前日志分段文件的大小超过了broker端参数log.segment.bytes配置的值。log.segment.bytes参数的默认值为1073741824,即1GB当前日志分段中消息的最小时间戳与当前系统的时间戳的差值大于log.roll.ms或log.roll.......
  • Markdown学习
    Markdown学习一级标题二级标题三级标题四级标题五级标题六级标题使用:1.标题:window用#号,#一级,##二级;Mac用command+数字,1234560,0是取消,1是一级标题,2是二级标题,最多到6级标题。2.粗体:前后各加两个*号hello3.斜体:前后各加一个*号hello4.粗体加斜体:前后各加三个*号hello......
  • 数据同步智能化!利用ETLCloud自动化流程实现钉钉OA系统数据自动同步至数仓
    钉钉数据同步需求钉钉是一款企业级通讯和协同办公应用软件,钉钉为企业提供包括聊天、通讯录、日程安排、考勤打卡、审批、通知公告、文件共享、会议等功能,很多企业都在使用钉钉。很多情况下我们需要把钉钉的数据拉取到数据库中,然后再通过报表工具进行统计分析,实现这种自动化流程......
  • The rocketMQTemplate does not exist TransactionListener
    rocketmq-starter版本:2.2.1发送的代码:@Testpublicvoidtest1()throwsException{ //事务id StringtransactionId=UUID.randomUUID().toString(); info(">>>发送半消息!transactionId:{}",transactionId); //发送事务消息 TransactionSendResultsendResu......
  • 河南 师范类大学
    1、河南师范类大学名单(本科) 序号学校名称省份城市层次备注1河南大学河南开封本科公办2河南师范大学河南新乡本科公办3信阳师范学院河南信阳本科公办4周口师范学院河南周口本科公办5安阳师范学院河南安阳本科公办6南阳师......
  • Java内存分析
    一、Java内存分区java内存分区****方法区主要用来存储已被虚拟机加载的类的信息、常量、静态变量和即时编译器编译后的代码等数据。****堆java堆是所有线程所共享的一块内存,在虚拟机启动时创建,几乎所有的对象实例都在这里创建,因此该区域经常发生垃圾回收操作。****虚拟机栈......
  • 删除页码不影响其他页
    1、首先,下载并打开电脑版的Word文档,双击首页页眉,然后勾选页面上方设计选项中的【首页不同】。2、继续在设计页面中,点击上面的【关闭页眉和页脚】,这样删除首页页眉完成,也不会影响其他页。打印出来的效果就是页码之间互相不会受到影响。......
  • 6.9
    社团管理系统packagebean;publicclassBean{privateintid;privateStringzhuti;privateStringmudi;privateStringleixing;privateStringtime;privateStringplace;privateStringduixiang;privateStringneirong;privateSt......
  • Bumblebee XB3
    BumblebeeXB3是一款由昆仑镜头、英飞凌主控、索尼IMX766传感器组成的双目视觉相机,主要作用和功能包括:立体成像:相机内置两台或三台数字相机,可实时得到场景深度信息和三维模型,实现立体成像功能。实时视频输出:相机支持实时视频输出,可将拍摄到的立体影像显示在屏幕上,或通过连接......
  • time模块、datetime模块、random模块、sys模块
    time模块(跟时间打交道的模块)表示时间的三种方式:1.时间戳:秒数2.格式化的时间字符串:2023-01-0111:11:113.结构化时间:它一般不是让人看的,让计算机看的#使用时间模块,需要导入time模块importtimepython中时间日期格式化符号:%y两位数的年份表示......