python爬虫案列03，爬取58二手房信息

时间：2023-03-13 11:57:17浏览次数：45

标签：xpath 03 etree 58 python section headers result div

import requests
from lxml import etree
url = "https://fy.58.com/ershoufang/?PGTID=0d100000-0091-53ca-4993-576198ca62e3"
headers={
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36"
}
response = requests.get(url=url, headers=headers)  # 发起请求，并保存到response变量中
etree_txt = etree.HTML(response.text)   # 将网页原码加载到etree对象中
result = []  # 创建一个空列表用来保存最后的结果

divs = etree_txt.xpath('//*[@id="esfMain"]/section/section[3]/section[1]/section[2]/div')  # 在网页原码中用xpath定位到要爬取的信息在那个标签中
for div in divs:  # 编列页面存在的标签
    address = div.xpath('./a/div[2]/div[1]/div[1]/h3/text()')[0].strip()  # 注意：这是从当前标签中拿到文字信息，所以是div.xpath，strip()去空格
    result.append(address)  # 内容添加到列表

for i in result:  # 输出结果
    print(i)

标签：xpath,03,etree,58,python,section,headers,result,div
From： https://www.cnblogs.com/shuxi/p/17210819.html

Python常见面试题013.请说出下面的代码返回结果是什么?
013.请说出下面的代码返回结果是什么?*的坑；简单题参考：https://docs.python.org/zh-cn/3.9/library/stdtypes.html#typesseq示例代码lists=[[]]*3lists[0].appen......
python爬取免费高匿爬虫ip
现在大部分门户网站都会做一些反爬虫的策略，对于长期做数据爬虫的程序猿来说那是深有体会。其实说白了就是用同一个地址频繁去爬虫一个网页很容易导致ip被关进小黑屋，为了安......
python函数
函数：是组织好的，可重复使用的，用来实现特定功能的代码段。函数的定义：def函数名(传入参数):函数体return返回值函数的调用：函数名(参数)注意事项：参数不......
2023/03/12（日）多云；うわばきあらい，还没收拾完
大宝是真能睡，不叫估计还能睡到中午；昨天回来蒸了米饭，结果都没吃晚饭，大宝说今天要吃炒米饭，我说好，又煎了鸡肉串；小宝说想吃烤贝壳，我说你原来在北京怎么不爱吃呀？他说有沙子，不......
python的正则表达式匹配C类地址
简介如果你不理解Python正则表达式，可以参考以下步骤：学习正则表达式的基本语法。正则表达式是一种描述字符串模式的语言，通过一些特殊字符和语法规则来描述字符串的组成......
2023/03/11（六）晴；被睡觉吞噬的一天
小宝跟我起的很早，昨天没吃完的叉烧肉之前又放回到汤里腌制；早起给小宝又下了新的面条吃了一顿；我继续洗衣服，收拾屋子；小宝自己玩手机；大宝一直在睡觉，她昨晚睡得比较晚，我起夜上......
转载自 https://blog.csdn.net/m0_52165864/article/details/126218082
Linux系列之系统监控命令目录1、top命令的使用1、系统统计信息2、系统进程信息2、free命令使用：内存3、df命令的使用：磁盘4、ps命令的使用5、crontab命令6、查看端口的......
「解题报告」ARC158D Equation
好神仙的题。考虑形如\(F(x,y,z)=x^i+y^i+z^i\)的函数有一个性质：\(F(tx,ty,tz)=t^iF(x,y,z)\)。原式要求\((x+y+z)(x^n+y^n+z^n)(x^{2n}+y^{2n}+z^{2n......
python 当前时间多加一天、一小时、一分钟
importdatetime#获取当前时间print(datetime.datetime.now())#2017-07-1515:01:24.619000#格式化时间print(datetime.datetime.now().strftime("%Y-%m-%d%H:%M......
Python3爬虫教程之ADSL拨号爬虫ip池的使用
在我之前做爬虫经常需要维护自己的爬虫ip池，他可以挑选出很多有用的爬虫地址，因为不是专业的而且这些爬虫ip通常是公共爬虫ip，所以可用率不是太高，而且这样类型的地址很大情况下......

python爬虫案列03，爬取58二手房信息

相关文章

赞助商

阅读排行