2.Htmls 页面解析
1 import csv 2 import os 3 import random 4 import time 5 import pandas as pd 6 from lxml import etree 7 import requests 8 from retry.api import retry_call 9 10 11 # 异常重试函数,防止网络不稳定导致抓取数据中断等。 12 def retry_request(crawl_url, req_type='get', retry_times=6): 13 while retry_times: 14 retry_times -= 1 15 try: 16 # 请求头 User-Agent 17 headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/ Safari/537.36"} 18 resp = retry_call(getattr(requests, req_type), fargs=[crawl_url], 19 fkwargs={"timeout": 60, "headers": headers}, delay=0, tries=1) 20 # 判断请求状态码以及响应是否为空,为空则继续,反之则返回请求体 21 if resp.status_code == 200 and resp.content: 22 return resp.text 23 except Exception as e: 24 print(e) 25 # 重试次数用完,则直接返回异常数据 26 if not retry_times: 27 return '<html></html>' 28 # 随机休眠 1-3s 29 time.sleep(random.randint(1, 3)) 30 31 32 # 抓取翻页数据 33 def get_pages(url): 34 page_html = retry_request(url) 35 html_obj = etree.HTML(page_html) 36 # xpath获取每个房屋部分 37 ports = html_obj.xpath('//*[@class="info clear"]') 38 lis = [] 39 for port in ports: 40 # 解析详情url 41 try: 42 url = port.xpath('.//*[@class="title"]/a[1]/@href')[0] 43 except: 44 url = '' 45 # 解析总价 46 try: 47 total_price = port.xpath('.//*[@class="totalPrice totalPrice2"]//text()') 48 total_price = ''.join(total_price).strip().replace('\n', '') 49 except: 50 total_price = '' 51 # 解析单价 52 try: 53 unit_price = port.xpath('.//*[@class="unitPrice"]//text()') 54 unit_price = ''.join(unit_price) 55 except: 56 unit_price = '' 57 # 将当前房屋数据加到house列表里 58 list_data = [url, unit_price, total_price] 59 lis.append(list_data) 60 return lis 61 62 63 # 抓取房屋详情信息 64 def get_detail(infos, city_name): 65 de_url = infos[0] 66 page_html = retry_request(de_url) 67 html_obj = etree.HTML(page_html) 68 # 解析所在行政区 69 try: 70 xzu = html_obj.xpath('//*[@class="areaName"]//span[@class="info"]//text()') 71 xzu = ''.join(xzu) 72 xzq = xzu.split('\xa0')[0] 73 except Exception as e: 74 xzq = '' 75 # 解析所在地址 76 try: 77 szqy = html_obj.xpath('//*[@class="areaName"]//span[@class="info"]//text()') 78 szqy = ''.join(szqy) 79 szqy = szqy.split('\xa0')[1:] 80 szqy = ''.join(szqy).strip() 81 except Exception as e: 82 szqy = '' 83 # 解析小区名称 84 try: 85 xqmc = html_obj.xpath('//*[@class="communityName"]/a[1]//text()') 86 xqmc = ''.join(xqmc).strip() 87 except Exception as e: 88 xqmc = '' 89 # 解析所在楼层 90 try: 91 szlc = html_obj.xpath('//*[@class="base"]//ul/li[2]//text()') 92 szlc = ''.join(szlc).replace('所在楼层', '').strip() 93 except Exception as e: 94 szlc = '' 95 # 解析房屋面积 96 try: 97 house_area = html_obj.xpath('//*[@class="area"]/div[@class="mainInfo"]//text()') 98 house_area = ''.join(house_area).strip() 99 except Exception as e: 100 house_area = '' 101 # 解析房屋朝向 102 try: 103 fwcx = html_obj.xpath('//span[text()="房屋朝向"]/parent::*/text()') 104 fwcx = ''.join(fwcx) 105 fwcx = fwcx.replace('房屋朝向', '').strip() 106 except Exception as e: 107 fwcx = '' 108 # 解析关注人数 109 try: 110 gzrs = html_obj.xpath('//*[@id="favCount"]/text()')[0] 111 except Exception as e: 112 gzrs = '' 113 # 解析房屋核心卖点 114 try: 115 house_good = ''.join(html_obj.xpath('//div[text()="核心卖点"]/following-sibling::div[1]//text()')) 116 house_good = house_good.strip() 117 except Exception as e: 118 house_good = '' 119 # 解析装修状态 120 try: 121 zx_status = ''.join(html_obj.xpath('//span[text()="装修情况"]/parent::*/text()')) 122 zx_status = zx_status.strip() 123 except Exception as e: 124 zx_status = '' 125 # 获取房屋单价 126 unit_price = infos[1] 127 # 获取房屋总价 128 total_price = infos[2]
1 # 清洗数据 2 def clean_data(): 3 # 将 每平方米价格 清洗成整数 4 df['每平方米价格'] = df.每平方米价格.str.replace('[^\d]', '',regex=True) 5 df['每平方米价格'] = df.每平方米价格.astype('int') 6 # 将 每平方米价格 清洗成小数,并生成价格区间列 7 df['建筑面积'] = df.建筑面积.str.replace('[^\d\.]', '',regex=True) 8 df['建筑面积'] = df.建筑面积.astype('float') 9 df['面积区间'] = df.建筑面积.apply(lambda x: '20㎡以下' if x <= 20 else '20.1-45㎡' if x <= 45 10 else '45.1-80㎡' if x <= 80 11 else '80.1-120㎡' if x <= 120 else '120.1㎡以上') 12 # 将 整套房总价 清洗成整数 13 df['整套房总价'] = df.整套房总价.str.replace('[^\d]', '',regex=True) 14 df['整套房总价'] = df.整套房总价.astype('int') 15 16 # 清洗 关注人数 并转换数据类型为整数类型 17 df['关注人数'] = df.关注人数.astype('str') 18 df['关注人数'] = df.关注人数.str.replace('[^\d]', '',regex=True) 19 df['关注人数'] = df.关注人数.astype('int')20 21 return df 22 23 # 接收清洗的结果集 24 clean_df = clean_data()
3.文本分析:wordcloud 的分词可视化
1 # 提取 房屋亮点 列,生成词云图 2 useful_df = clean_df[clean_df.房屋亮点.notnull()] 3 sentence_str = ''.join(list(useful_df.房屋亮点)) 4 # 构造词字典,统计个各个词出现的总次数 5 data_dict = {} 6 # jieba分词 7 fc_list = jieba.lcut(sentence_str) 8 # 遍历每个词并统计 9 for key in fc_list: 10 # 长度等于1的字,不做统计 11 if len(key) < 2: 12 continue 13 index = data_dict.get(key) 14 if index: 15 value = index + 1 16 else: 17 value = 1 18 data_dict[key] = value 19 # 加载词云背景图 20 pic_read = Image.open('bgc_pic.webp') 21 # 使用numpy获取图片外形 22 pic_mask = np.array(pic_read) 23 # 构造词云 24 word_cloud = wordcloud.WordCloud( 25 background_color='skyblue', # 设定图背景色 26 font_path=r'C:\Windows\Fonts\STHUPO.ttf',# 加载图字体 27 width=800,# 设定图宽度 28 height=800, # 设定图高度 29 mask=pic_mask, # 设定图外形 30 ) 31 # 将词填充到图上 32 word_cloud.fit_words(data_dict) 33 plt.imshow(word_cloud) 34 # 关闭图坐标轴 35 plt.axis('off') 36 plt.show()
1 clean_df_city = clean_df.groupby('行政区').mean().sort_values(by='每平方米价格', ascending=False) 2 3 # 设置图片大小 4 plt.figure(figsize=(14, 8)) 5 # 设置网格线 6 plt.grid(color='steelblue', linestyle='-.') 7 # 绘制饼图 8 plt.bar(x=clean_df_city.index, height=[round(i, 2) for i in list(clean_df_city.每平方米价格)], 9 align='center', color='skyblue') 10 # 加上每个值的数据标签 11 for a, b in enumerate([round(i, 2) for i in list(clean_df_city.每平方米价格)]): 12 plt.text(a, b / 1, "%d元" % round(b, 2), ha='center', fontsize=12, color='r') 13 # 设置x和y以及title标签 14 plt.xlabel('所在地区', labelpad=10, size=15) 15 plt.ylabel('房屋均价', labelpad=15, size=15) 16 plt.title('各行政区房屋均价展示', pad=20, size=20) 17 plt.show()
1 clean_df_xzfl = clean_df.groupby('面积区间').count() 2 plt.figure(figsize=(7, 5)) 3 # 构造饼图生成器 4 wedges, texts, autotexts = plt.pie(clean_df_xzfl.小区名称, 5 autopct="%4.2f%%", 6 textprops=dict(color="w")) 7 # 为饼图添加图例 8 plt.legend(wedges, 9 clean_df_xzfl.index, 10 fontsize=12, 11 title="房屋面积区间", 12 loc="center left", 13 bbox_to_anchor=(0.91, 0, 0.3, 1)) 14 # 绘制饼图形状大小 15 plt.setp(autotexts, size=15, weight="bold") 16 plt.setp(texts, size=15) 17 plt.title("各面积区间房屋数量占比图", size=20) 18 plt.show()
(3)构造 各行政区房屋数量分布地图
1 ct_map = Map( 2 init_opts=opts.InitOpts(width="1200px", height='600px') 3 ) 4 # 添加地图title并选定地区为上海市 5 ct_map.add('行政区房屋数量', data_pair=data_list, maptype='上海', is_map_symbol_show=False) 6 ct_map.set_series_opts(label_opts=opts.LabelOpts(is_show=True)) 7 ct_map.set_global_opts( 8 title_opts=opts.TitleOpts(title='各行政区房屋数量分布图', subtitle='数据来源:链家上海二手房'), 9 visualmap_opts=opts.VisualMapOpts( 10 # 设定各区间值,该值区间表示的是各个行政区拥有的房屋数量区间 11 pieces=[ 12 {"max": 1000, "min": 450, "label": ">450", "color": "#0000CD"}, 13 {"max": 450, "min": 350, "label": "350-450", "color": "#0000FF"}, 14 {"max": 350, "min": 250, "label": "250-350", "color": "#00BFFF"}, 15 {"max": 250, "min": 180, "label": "180-250", "color": "#00BFFF"}, 16 {"max": 180, "min": 120, "label": "120-180", "color": "#87CEFA"}, 17 {"max": 120, "min": 60, "label": "60-120", "color": "#87CEEB"}, 18 {"max": 60, "min": 30, "label": "30-60", "color": "#ADD8E6"}, 19 {"max": 30, "min": 10, "label": "10-30", "color": "#B0E0E6"}, 20 {"max": 10, "min": 1, "label": "1-10", "color": "#F0F8FF"}, 21 ], 22 is_piecewise=True 23 ) 24 )
1 # pandas读取csv文件并保存为Excel文件 2 def csv2excel(city_name): 3 df = pd.read_csv(f'{city_name}链家二手房.csv', header=None, names=['行政区', '小区名称', '每平方米价格', 4 '整套房总价', '建筑面积', '所在楼层', '房屋朝向', 5 '关注人数', '所在区域', '装修类型', '房屋亮点'], 6 encoding='utf-8') 7 df.to_excel(f'{city_name}链家二手房.xlsx', index=False) 8 # 删除原csv文件 9 os.remove(f'{city_name}链家二手房.csv') 10 print('文件转换成功')
try: os.mkdir('分析结果') except Exception as e: print(e)
import os

import jieba
import wordcloud
from PIL import Image
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
from pyecharts import options as opts
from pyecharts.charts import Map
matplotlib.use('TkAgg')
plt.style.use('seaborn')

# 设置图片背景色
plt.style.use('seaborn')
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用于正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False # 用于正常显示负号

# 读取数据集
df = pd.read_excel('上海市链家二手房.xlsx', sheet_name='Sheet1', header=0)

# 创建存储分析文件的文件夹
try:
    os.mkdir('分析结果')
except Exception as e:
    print(e)

# 清洗数据
def clean_data():
    # 将 每平方米价格 清洗成整数
    df['每平方米价格'] = df.每平方米价格.str.replace('[^\d]', '',regex=True)
    df['每平方米价格'] = df.每平方米价格.astype('int')
    # 将 每平方米价格 清洗成小数,并生成价格区间列
    df['建筑面积'] = df.建筑面积.str.replace('[^\d\.]', '',regex=True)
    df['建筑面积'] = df.建筑面积.astype('float')
    df['面积区间'] = df.建筑面积.apply(lambda x: '20㎡以下' if x <= 20 else '20.1-45㎡' if x <= 45
                                else '45.1-80㎡' if x <= 80
                                else '80.1-120㎡' if x <= 120 else '120.1㎡以上') # 将 整套房总价 清洗成整数
    df['整套房总价'] = df.整套房总价.str.replace('[^\d]', '',regex=True)
    df['整套房总价'] = df.整套房总价.astype('int')
    
    # 清洗 关注人数 并转换数据类型为整数类型
    df['关注人数'] = df.关注人数.astype('str')
    df['关注人数'] = df.关注人数.str.replace('[^\d]', '',regex=True)
    df['关注人数'] = df.关注人数.astype('int')
    # 将清洗的结果存到文件 上海市链家二手房.xlsx
    df.to_excel(r'分析结果\上海市链家二手房.xlsx')
    
    return df

# 接收清洗的结果集
clean_df = clean_data()

# 绘制各行政区房屋均价
clean_df_city = clean_df.groupby('行政区').mean().sort_values(by='每平方米价格', ascending=False)

# 设置图片大小
plt.figure(figsize=(14, 8))
# 设置网格线
plt.grid(color='steelblue', linestyle='-.')
# 绘制饼图
plt.bar(x=clean_df_city.index, height=[round(i, 2) for i in list(clean_df_city.每平方米价格)],
        align='center', color='skyblue')
# 加上每个值的数据标签
for a, b in enumerate([round(i, 2) for i in list(clean_df_city.每平方米价格)]):
    plt.text(a, b / 1, "%d元" % round(b, 2), ha='center', fontsize=12, color='r')
# 设置x和y以及title标签
plt.xlabel('所在地区', labelpad=10, size=15)
plt.ylabel('房屋均价', labelpad=15, size=15)
plt.title('各行政区房屋均价展示', pad=20, size=20) # 保存图片到 分析结果文件夹中
plt.savefig('分析结果/各行政区房屋均价展示.jpg')
plt.show()

# 绘制各行政区房屋数量占比图
clean_df_xzfl = clean_df.groupby('面积区间').count()
plt.figure(figsize=(7, 5))
# 构造饼图生成器
wedges, texts, autotexts = plt.pie(clean_df_xzfl.小区名称,
                                    autopct="%4.2f%%",
                                    textprops=dict(color="w"))
# 为饼图添加图例
plt.legend(wedges,
           clean_df_xzfl.index,
           fontsize=12,
           title="房屋面积区间",
           loc="center left",
           bbox_to_anchor=(0.91, 0, 0.3, 1))
# 绘制饼图形状大小
plt.setp(autotexts, size=15, weight="bold")
plt.setp(texts, size=15)
plt.title("各面积区间房屋数量占比图", size=20)
# 保存图片到 分析结果文件夹中
plt.savefig('分析结果/各面积区间房屋数量占比图.jpg')
plt.show()

# 统计行政区列,并生成字典数据,记录每个行政区拥有的房屋数量
xzq_dict = {}
xzq_list = list(clean_df.行政区)
for zxq in xzq_list:
    # 构建上海市各行政区列表
    area_list = ['黄浦区', '徐汇区', '长宁区', '静安区', '普陀区', '虹口区', '杨浦区', '浦东新区', '闵行区', '宝山区',
                 '嘉定区', '金山区', '松江区', '青浦区', '奉贤区', '崇明区']
    # 遍历并取到当前key对应的行政区名称
    for area in area_list:
        if zxq in area:
            new_area = area
            break # 获取值,如果值存在,则加1,否则赋值为1
    data = xzq_dict.get(new_area)
    if data:
        value = data + 1
    else:
        value = 1
    xzq_dict[new_area] = value

# 将统计行政区结果转成list数据
data_list = list(xzq_dict.items())
print(data_list)
# 构造 各行政区房屋数量分布地图
ct_map = Map(
    init_opts=opts.InitOpts(width="1200px", height='600px')
)
# 添加地图title并选定地区为上海市
ct_map.add('行政区房屋数量', data_pair=data_list, maptype='上海', is_map_symbol_show=False)
ct_map.set_series_opts(label_opts=opts.LabelOpts(is_show=True))
ct_map.set_global_opts(
    title_opts=opts.TitleOpts(title='各行政区房屋数量分布图', subtitle='数据来源:链家上海二手房'),
    visualmap_opts=opts.VisualMapOpts(
        # 设定各区间值,该值区间表示的是各个行政区拥有的房屋数量区间
        pieces=[
            {"max": 1000, "min": 450, "label": ">450", "color": "#0000CD"},
            {"max": 450, "min": 350, "label": "350-450", "color": "#0000FF"},
            {"max": 350, "min": 250, "label": "250-350", "color": "#00BFFF"},
            {"max": 250, "min": 180, "label": "180-250", "color": "#00BFFF"},
            {"max": 180, "min": 120, "label": "120-180", "color": "#87CEFA"},
            {"max": 120, "min": 60, "label": "60-120", "color": "#87CEEB"},
            {"max": 60, "min": 30, "label": "30-60", "color": "#ADD8E6"},
            {"max": 30, "min": 10, "label": "10-30", "color": "#B0E0E6"},
            {"max": 10, "min": 1, "label": "1-10", "color": "#F0F8FF"},
        ],
        is_piecewise=True
    )
) # 保存结果到 各行政区房屋数量分布图.html 文件中
ct_map.render('分析结果/各行政区房屋数量分布图.html')

# 提取 房屋亮点 列,生成词云图
useful_df = clean_df[clean_df.房屋亮点.notnull()]
sentence_str = ''.join(list(useful_df.房屋亮点))
# 构造词字典,统计个各个词出现的总次数
data_dict = {}
# jieba分词
fc_list = jieba.lcut(sentence_str)
# 遍历每个词并统计
for key in fc_list:
    # 长度等于1的字,不做统计
    if len(key) < 2:
        continue
    index = data_dict.get(key)
    if index:
        value = index + 1
    else:
        value = 1
    data_dict[key] = value
# 加载词云背景图
pic_read = Image.open('bgc_pic.webp')
# 使用numpy获取图片外形
pic_mask = np.array(pic_read)
# 构造词云
word_cloud = wordcloud.WordCloud(
    background_color='skyblue',  # 设定图背景色
    font_path=r'C:\Windows\Fonts\STHUPO.ttf',# 加载图字体
    width=800,# 设定图宽度
    height=800,  # 设定图高度
    mask=pic_mask,  # 设定图外形
)
# 将词填充到图上
word_cloud.fit_words(data_dict)
plt.imshow(word_cloud)
# 关闭图坐标轴
plt.axis('off')
plt.show()
# 词云保存到文件里
word_cloud.to_file(r'分析结果\房屋亮点词云图.png')
