首页 > 其他分享 >使用Xpath编写爬虫代码

使用Xpath编写爬虫代码

时间:2023-06-12 09:44:18浏览次数:44  
标签:Xpath xpath house price 爬虫 html text 编写 div

Xpath选择器爬取房源信息实例

获取网页html,未处理子网页信息。

python3.6

for i in range(1, 101):
    print('正在爬取第' + str(i) + '页')
    # 爬取北京 上海 广州 深圳的二手房信息
    city = ['bj', 'sh', 'gz', 'sz']
    for c in city:
        # 拼接url
        if i == 1:
            url = 'https://{}.lianjia.com/ershoufang/'.format(c)
        else:
            url = 'https://{}.lianjia.com/ershoufang/pg{}/'.format(c, i)
        #拒绝
        response = requests.get(url, cookies=cookies, headers=headers)
        # 使用xpath解析
        html = etree.HTML(response.text)
        # 获取所有的二手房介绍
        house_brief = html.xpath('/html/body/div[4]/div[1]/ul/li/div[1]/div[1]/a/text()')
        # 获取所有的二手房地理位置 需要拼接一下二手房的地理信息
        house_location1 = html.xpath('/html/body/div[4]/div[1]/ul/li/div[1]/div[2]/div/a[1]/text()')
        house_location2 = html.xpath('/html/body/div[4]/div[1]/ul/li/div[1]/div[2]/div/a[2]/text()')
        # 获取所有的二手房的总价 拆分数据
        house_total_price = html.xpath('/html/body/div[4]/div[1]/ul/li/div[1]/div[3]/div/text()')
        # 关注和发布时间
        house_follow_info = html.xpath('/html/body/div[4]/div[1]/ul/li/div[1]/div[4]/text()')
        # 总价
        house_unit_price = html.xpath('/html/body/div[4]/div[1]/ul/li/div[1]/div[6]/div[1]/span/text()')
        # 每平方米的价格
        house_unit_price2 = html.xpath('/html/body/div[4]/div[1]/ul/li/div[1]/div[6]/div[2]/span/text()')

        # 遍历所有的二手房信息
        for j in range(len(house_brief)):
            data = {
                '简介': house_brief[j],
                '地理位置': house_location1[j] + house_location2[j],
                '总价': house_unit_price[j],
                '每平米的价格': house_unit_price2[j],
                '关注': house_follow_info[j].split('/')[0],
                '发布时间': house_follow_info[j].split('/')[1],
                '户型': house_total_price[j].split('|')[0],
                '面积': house_total_price[j].split('|')[1],
                '朝向': house_total_price[j].split('|')[2],
                '装修': house_total_price[j].split('|')[3],
                '楼层': house_total_price[j].split('|')[4]
            }
            df = df.append(data, ignore_index=True)
        # 追加新数据
        df = pd.concat([existing_data, df], ignore_index=True)

 




标签:Xpath,xpath,house,price,爬虫,html,text,编写,div
From: https://www.cnblogs.com/smith-count/p/17474122.html

相关文章

  • XML代码的编写(一)
    XML代码的编写(一)XML概念Extensible Markup Language,翻译过来为可扩展标记语言。Xml技术是w3c组织发布的,目前推荐遵循的是W3C组织于2000发布的XML1.0规范。学习XML的目的在现实生活中大量存在有关系的数据,如下图所示  这样的数据如何交给计算机处理呢?,XML语言......
  • JavaWeb开发与代码的编写(十八)
    JavaWeb开发与代码的编写(十八)Filter(过滤器)Filter也称之为过滤器,它是Servlet技术中最激动人心的技术,WEB开发人员通过Filter技术,对web服务器管理的所有web资源:例如Jsp,Servlet,静态图片文件或静态html文件等进行拦截,从而实现一些特殊的功能。例如实现URL级别的权限访问控......
  • Python爬虫
    目录PythonSpider第一章爬虫入门1.1爬虫概述1.1.1爬虫原理1.1.2爬虫分类1.1.3爬虫应用1.2爬虫流程1.2.1爬取网页1.2.2解析网页1.2.3存储数据1.3爬虫协议1.3.1Robots协议1.3.2robots.txt文件简介1.3.3robots.txt文件详解1.3.4爬虫准则1.4爬虫环境1.4.1原生Python+......
  • XPath官方手册中文版
    字号:大中小XPATH指南实例1基本的XPath语法类似于在一个文件系统中定位文件,如果路径以斜线/开始,那么该路径就表示到一个元素的绝对路径实例2如果路径以双斜线//开头,则表示选择文档中所有满足双斜线//之后规则的元素(无论层级关系)实例3星......
  • 盘点一个Python网络爬虫问题
    大家好,我是皮皮。一、前言前几天在Python最强王者群【刘桓鸣】问了一个Python网络爬虫的问题,这里拿出来给大家分享下。他自己的代码如下:importrequestskey=input("请输入关键字")res=requests.post(url="https://jf.10086.cn/cmcc-web-shop/search/query",data=......
  • Python爬虫--BOSS直聘网Python相关职业招聘信息
    一、选题的背景为什么要选择此选题?要达到的数据分析目标是什么?从社会、经济、技术、数据来源等方面进行描述(200字以内)(10分)   最近Python大热,Python在数据分析、后端开发、人工智能、运维、全栈开发等多方面都具有得天独厚的优势。在一些行业爬虫工程师,人工智能,爬虫工程......
  • Python网络爬虫对汽车团购报名的爬取及分析
    一、选题背景 现如今汽车已逐步进入家庭中,对于一些准备购入新车的家庭,犹豫不决,不知道现在市场上与车友们推荐的哪些车,此次爬虫项目将对网上的团购排名进行爬取,更能简单直观的让大家依据个人情况来挑选自己中意的车辆详情。二、设计方案1.主题式网络爬虫名称  《python网络......
  • python爬虫——深圳市租房信息数据分析
    一、选题背景因为深圳经济非常不错,想必想要去深圳工作的人也不少。衣食住行是生活的基本需求。衣和食好解决,不喜欢的衣服可以买新的,不好吃的食物可以换一家吃。可是在住宿上,买房和租房的置换成本都相对较高,因此房源选择尤为慎重。作为目前买不起房的人自然是以租房为主,但是租房我......
  • python爬虫------------旅游的地点的爬取和可视化
    1.选题背景我国旅游行业的极速发展,因为之前疫情原因,使得国内旅游成为新风潮,由于国内疫情解封,使得中国成为最先开放旅游的国家,本次项目可视化就是分析国内旅游的数据,分析适合出行旅游的时间与地点信息.2.设计方案 1.向目标网络发送请求   2.获取数据网页源码   3.筛......
  • python爬虫------------旅游的地点的爬取和可视化 2
    随笔-2  文章-0  评论-0  阅读- 55python爬虫------------旅游的地点的爬取和可视化  1.选题背景我国旅游行业的极速发展,因为之前疫情原因,使得国内旅游成为新风潮,由于国内疫情解封,使得中国成为最先开放旅游的国家,本次项目可视化就是分析国内旅游......