使用Xpath编写爬虫代码

时间：2023-06-12 09:44:18浏览次数：44

标签：Xpath xpath house price 爬虫 html text 编写 div

Xpath选择器爬取房源信息实例

获取网页html,未处理子网页信息。

python3.6

for i in range(1, 101):
    print('正在爬取第' + str(i) + '页')
    # 爬取北京 上海 广州 深圳的二手房信息
    city = ['bj', 'sh', 'gz', 'sz']
    for c in city:
        # 拼接url
        if i == 1:
            url = 'https://{}.lianjia.com/ershoufang/'.format(c)
        else:
            url = 'https://{}.lianjia.com/ershoufang/pg{}/'.format(c, i)
        #拒绝
        response = requests.get(url, cookies=cookies, headers=headers)
        # 使用xpath解析
        html = etree.HTML(response.text)
        # 获取所有的二手房介绍
        house_brief = html.xpath('/html/body/div[4]/div[1]/ul/li/div[1]/div[1]/a/text()')
        # 获取所有的二手房地理位置 需要拼接一下二手房的地理信息
        house_location1 = html.xpath('/html/body/div[4]/div[1]/ul/li/div[1]/div[2]/div/a[1]/text()')
        house_location2 = html.xpath('/html/body/div[4]/div[1]/ul/li/div[1]/div[2]/div/a[2]/text()')
        # 获取所有的二手房的总价 拆分数据
        house_total_price = html.xpath('/html/body/div[4]/div[1]/ul/li/div[1]/div[3]/div/text()')
        # 关注和发布时间
        house_follow_info = html.xpath('/html/body/div[4]/div[1]/ul/li/div[1]/div[4]/text()')
        # 总价
        house_unit_price = html.xpath('/html/body/div[4]/div[1]/ul/li/div[1]/div[6]/div[1]/span/text()')
        # 每平方米的价格
        house_unit_price2 = html.xpath('/html/body/div[4]/div[1]/ul/li/div[1]/div[6]/div[2]/span/text()')

        # 遍历所有的二手房信息
        for j in range(len(house_brief)):
            data = {
                '简介': house_brief[j],
                '地理位置': house_location1[j] + house_location2[j],
                '总价': house_unit_price[j],
                '每平米的价格': house_unit_price2[j],
                '关注': house_follow_info[j].split('/')[0],
                '发布时间': house_follow_info[j].split('/')[1],
                '户型': house_total_price[j].split('|')[0],
                '面积': house_total_price[j].split('|')[1],
                '朝向': house_total_price[j].split('|')[2],
                '装修': house_total_price[j].split('|')[3],
                '楼层': house_total_price[j].split('|')[4]
            }
            df = df.append(data, ignore_index=True)
        # 追加新数据
        df = pd.concat([existing_data, df], ignore_index=True)

标签：Xpath,xpath,house,price,爬虫,html,text,编写,div
From： https://www.cnblogs.com/smith-count/p/17474122.html

XML代码的编写(一)
XML代码的编写(一)XML概念Extensible Markup Language，翻译过来为可扩展标记语言。Xml技术是w3c组织发布的，目前推荐遵循的是W3C组织于2000发布的XML1.0规范。学习XML的目的在现实生活中大量存在有关系的数据，如下图所示这样的数据如何交给计算机处理呢？，XML语言......
JavaWeb开发与代码的编写(十八)
JavaWeb开发与代码的编写(十八)Filter(过滤器)Filter也称之为过滤器，它是Servlet技术中最激动人心的技术，WEB开发人员通过Filter技术，对web服务器管理的所有web资源：例如Jsp,Servlet,静态图片文件或静态html文件等进行拦截，从而实现一些特殊的功能。例如实现URL级别的权限访问控......
Python爬虫
目录PythonSpider第一章爬虫入门1.1爬虫概述1.1.1爬虫原理1.1.2爬虫分类1.1.3爬虫应用1.2爬虫流程1.2.1爬取网页1.2.2解析网页1.2.3存储数据1.3爬虫协议1.3.1Robots协议1.3.2robots.txt文件简介1.3.3robots.txt文件详解1.3.4爬虫准则1.4爬虫环境1.4.1原生Python+......
XPath官方手册中文版
字号：大中小XPATH指南实例1基本的XPath语法类似于在一个文件系统中定位文件,如果路径以斜线/开始,那么该路径就表示到一个元素的绝对路径实例2如果路径以双斜线//开头,则表示选择文档中所有满足双斜线//之后规则的元素(无论层级关系)实例3星......
盘点一个Python网络爬虫问题
大家好，我是皮皮。一、前言前几天在Python最强王者群【刘桓鸣】问了一个Python网络爬虫的问题，这里拿出来给大家分享下。他自己的代码如下：importrequestskey=input("请输入关键字")res=requests.post(url="https://jf.10086.cn/cmcc-web-shop/search/query",data=......
Python爬虫--BOSS直聘网Python相关职业招聘信息
一、选题的背景为什么要选择此选题？要达到的数据分析目标是什么？从社会、经济、技术、数据来源等方面进行描述（200字以内）（10分）最近Python大热，Python在数据分析、后端开发、人工智能、运维、全栈开发等多方面都具有得天独厚的优势。在一些行业爬虫工程师，人工智能，爬虫工程......
Python网络爬虫对汽车团购报名的爬取及分析
一、选题背景现如今汽车已逐步进入家庭中，对于一些准备购入新车的家庭，犹豫不决，不知道现在市场上与车友们推荐的哪些车，此次爬虫项目将对网上的团购排名进行爬取，更能简单直观的让大家依据个人情况来挑选自己中意的车辆详情。二、设计方案1.主题式网络爬虫名称《python网络......
python爬虫——深圳市租房信息数据分析
一、选题背景因为深圳经济非常不错，想必想要去深圳工作的人也不少。衣食住行是生活的基本需求。衣和食好解决，不喜欢的衣服可以买新的，不好吃的食物可以换一家吃。可是在住宿上，买房和租房的置换成本都相对较高，因此房源选择尤为慎重。作为目前买不起房的人自然是以租房为主，但是租房我......
python爬虫------------旅游的地点的爬取和可视化
1.选题背景我国旅游行业的极速发展，因为之前疫情原因，使得国内旅游成为新风潮，由于国内疫情解封，使得中国成为最先开放旅游的国家，本次项目可视化就是分析国内旅游的数据，分析适合出行旅游的时间与地点信息.2.设计方案 1.向目标网络发送请求 2.获取数据网页源码 3.筛......
python爬虫------------旅游的地点的爬取和可视化 2
随笔-2 文章-0 评论-0 阅读- 55python爬虫------------旅游的地点的爬取和可视化 1.选题背景我国旅游行业的极速发展，因为之前疫情原因，使得国内旅游成为新风潮，由于国内疫情解封，使得中国成为最先开放旅游的国家，本次项目可视化就是分析国内旅游......

使用Xpath编写爬虫代码

相关文章

赞助商

阅读排行