一、选题背景
衣食住行是生活的基本需求。衣和食好解决,不喜欢的衣服可以买新的,不好吃的食物可以换一家吃。可是在住宿上,买房和租房的置换成本都相对较高,因此房源选择尤为慎重。作为目前买不起房的自然人,我们一般是通过中介来实现租房的需求比如自如,贝壳找房和链家。链家占据了租赁市场的主导地位,且提供的信息相对公允。但每当我刷超过十个房源,我就会记不起来每一个的信息,也无法可视化去比较很多个房源。所以我通过python来爬取链家网上我所需要的信息,就可以可视化的去比较多个房源对于租房也更有利,可以说是更快更方便的找到心仪的房子。
二、主题式网络爬虫设计方案
1.主题式网络爬虫名称
武汉市各个区域租房信息爬取
2.主题式网络爬虫爬取的内容与数据特征分析
武汉市各个区域租房信息爬取,主要爬取了链家网上武汉市江岸的租房信息的数据。
爬取武汉江岸租赁方式,每月租金,行政区,板块,房屋面积,格局,朝向等信息。
3.主题式网络爬虫设计方案概述(包括实现思路与技术难点)
思路:查看网页的结构,定位目标数据的位置,爬取数据,将数据进行清洗,最后将清洗后的数据进行可视化。
难点:如何应对数据分析可视化缺少模块,如何爬取多个页面的数据,请求异常的处理
三、主题页面的结构特征分析
1.主题页面的结构与特征分析
目标内容界面:
2.Htmls 页面解析
3.节点(标签)查找方法与遍历方法
打开网页的源码,然后用鼠标检查工具找打对应大概位置进行查找,先找大标签(这里就是这个content__list),再找其中的小便签。
我们这里把要获取的数据找着,然后在元素中分析。
遍历方法:for循环
四、网络爬虫程序设计
1.数据爬取与采集
以下为爬取流程图
以下为爬取过程的代码
获取了以下信息
4.数据分析与可视化
以下为爬出的柱形图
爬取出来的饼状图
5.数据持久化
6.将以上各部分的代码汇总,附上完整程序代码
(1)爬虫代码部分
(2)数据可视化代码
(3)数据持久化代码
五、总结
对本课程设计的整体完成情况做一个总结,通过这次利用python代码爬虫爬取网站数据并分析,得出江岸房价低于武汉的平均房价。同时租房面积50到70平米的占比最多,30平米以下的租房人数最少。这让我掌握了最基础的数据分析知识,体验了数据分析的乐趣,包括数据预处理,异常值的查找等,数据的合并和分组及聚合,还有数据可视化来直观的观察,分析数据。同样大多数人面临这样一个挑战:我们认识到数据可视化的必要性,但缺乏数据可视化方面的专业技能。部分原因可以归结于,数据可视化只是数据分析过程中的一个环节,数据分析师可能将精力花在获取数据、清洗整理数据、分析数据、建立模型。
标签:租房,python,爬虫,信息,爬取,--,可视化,数据 From: https://www.cnblogs.com/zxyq/p/17470136.html