首页 > 编程语言 >python爬虫案列03,爬取58二手房信息

python爬虫案列03,爬取58二手房信息

时间:2023-03-13 11:57:17浏览次数:37  
标签:xpath 03 etree 58 python section headers result div

import requests
from lxml import etree
url = "https://fy.58.com/ershoufang/?PGTID=0d100000-0091-53ca-4993-576198ca62e3"
headers={
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36"
}
response = requests.get(url=url, headers=headers)  # 发起请求,并保存到response变量中
etree_txt = etree.HTML(response.text)   # 将网页原码加载到etree对象中
result = []  # 创建一个空列表用来保存最后的结果

divs = etree_txt.xpath('//*[@id="esfMain"]/section/section[3]/section[1]/section[2]/div')  # 在网页原码中用xpath定位到要爬取的信息在那个标签中
for div in divs:  # 编列页面存在的标签
    address = div.xpath('./a/div[2]/div[1]/div[1]/h3/text()')[0].strip()  # 注意:这是从当前标签中拿到文字信息,所以是div.xpath,strip()去空格
    result.append(address)  # 内容添加到列表

for i in result:  # 输出结果
    print(i)

 

标签:xpath,03,etree,58,python,section,headers,result,div
From: https://www.cnblogs.com/shuxi/p/17210819.html

相关文章

  • Python常见面试题013.请说出下面的代码返回结果是什么?
    013.请说出下面的代码返回结果是什么?*的坑;简单题参考:https://docs.python.org/zh-cn/3.9/library/stdtypes.html#typesseq示例代码lists=[[]]*3lists[0].appen......
  • python爬取免费高匿爬虫ip
    现在大部分门户网站都会做一些反爬虫的策略,对于长期做数据爬虫的程序猿来说那是深有体会。其实说白了就是用同一个地址频繁去爬虫一个网页很容易导致ip被关进小黑屋,为了安......
  • python函数
    函数:是组织好的,可重复使用的,用来实现特定功能的代码段。函数的定义:def函数名(传入参数):函数体return返回值 函数的调用:函数名(参数)注意事项:参数不......
  • 2023/03/12(日)多云;うわばきあらい,还没收拾完
    大宝是真能睡,不叫估计还能睡到中午;昨天回来蒸了米饭,结果都没吃晚饭,大宝说今天要吃炒米饭,我说好,又煎了鸡肉串;小宝说想吃烤贝壳,我说你原来在北京怎么不爱吃呀?他说有沙子,不......
  • python的正则表达式匹配C类地址
    简介如果你不理解Python正则表达式,可以参考以下步骤:学习正则表达式的基本语法。正则表达式是一种描述字符串模式的语言,通过一些特殊字符和语法规则来描述字符串的组成......
  • 2023/03/11(六)晴;被睡觉吞噬的一天
    小宝跟我起的很早,昨天没吃完的叉烧肉之前又放回到汤里腌制;早起给小宝又下了新的面条吃了一顿;我继续洗衣服,收拾屋子;小宝自己玩手机;大宝一直在睡觉,她昨晚睡得比较晚,我起夜上......
  • 转载自 https://blog.csdn.net/m0_52165864/article/details/126218082
    Linux系列之系统监控命令 目录1、top命令的使用1、系统统计信息2、系统进程信息2、free命令使用:内存3、df命令的使用:磁盘4、ps命令的使用5、crontab命令6、查看端口的......
  • 「解题报告」ARC158D Equation
    好神仙的题。考虑形如\(F(x,y,z)=x^i+y^i+z^i\)的函数有一个性质:\(F(tx,ty,tz)=t^iF(x,y,z)\)。原式要求\((x+y+z)(x^n+y^n+z^n)(x^{2n}+y^{2n}+z^{2n......
  • python 当前时间多加一天、一小时、一分钟
    importdatetime#获取当前时间print(datetime.datetime.now())#2017-07-1515:01:24.619000#格式化时间print(datetime.datetime.now().strftime("%Y-%m-%d%H:%M......
  • Python3爬虫教程之ADSL拨号爬虫ip池的使用
    在我之前做爬虫经常需要维护自己的爬虫ip池,他可以挑选出很多有用的爬虫地址,因为不是专业的而且这些爬虫ip通常是公共爬虫ip,所以可用率不是太高,而且这样类型的地址很大情况下......