首页 > 其他分享 >爬取58二手房数据

爬取58二手房数据

时间:2024-02-26 18:12:06浏览次数:26  
标签:__ 58 url text li 爬取 二手房

from lxml import etree
import requests
# 爬取58二手房
if __name__ == '__main__':
    #爬取到页面源码数据
    url = 'https://m.58.com/bj/ershoufang/?reform=pcfront&PGTID=0d000001-000f-1085-0e36-5f17322b35a6&ClickID=1'
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'
    }
    page_text= requests.get(url=url, headers=headers).text
    # 数据解析
    tree = etree.HTML(page_text)
    # 存储的就是li标签
    li_list = tree.xpath('//ul/li')
    fp = open('58.txt','w',encoding='utf-8')
    for li in li_list:
        title = li.xpath('.//div[2]/div[1]/span/text()')[0]
        print(title)
        fp.write(title+'\n')

标签:__,58,url,text,li,爬取,二手房
From: https://www.cnblogs.com/lin513/p/18034889

相关文章

  • Codeforces 587D Duff in Beach
    不难发现可以按长度为\(n\)分为段。考虑到\(l\)其实并没什么大用,只是说对于选出来的\(b_{1\simx}\)可以都整体移任意段,只需要保证在范围内就行了。进一步的,发现只需要看最后一个数的取值得到其最大可以在的段数即为\(d\),那么移动的方案数就为\(d-x+1\)。还有的一......
  • 每日(python爬取)
    python爬取网络小说清洗并下载至txt文件 什么是爬虫网络爬虫,也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来,以......
  • UOJ228/HDU5828 基础数据结构练习题/Rikka with Sequence 题解(势能线段树)
    势能线段树。如果线段树上一个节点的\(\max-\min\ge2\),我们称其为关键节点,考虑定义势能\(\phi\)为线段树上关键节点的个数。对于每次开方操作,如果当前节点为关键节点,则暴力递归左右儿子修改,否则:如果当前节点\(\max=\min\)或\(\max=\min+1\)且\(\max\)不是完全平方数,......
  • MIT 6.5840 MapReduce Lab
    MapReduceMapReduce是一种编程模型,其思想是让程序员通过编写简单的Map和Reduce程序就能完成分布式系统的任务,而不需要关注分布式的具体细节。用户自定义的Map函数接受一个key/valuepair的输入值,然后产生一个中间key/valuepair值的集合。MapReduce库把所有具有相同中......
  • 代码随想录 day58 判断子序列 不同的子序列
    判断子序列dp[i][j]表示以下标i-1为结尾的字符串s,和以下标j-1为结尾的字符串t,相同子序列的长度为dp[i][j]。if(s[i-1]==t[j-1])t中找到了一个字符在s中也出现了if(s[i-1]!=t[j-1])相当于t要删除元素,继续匹配不同的子序列dp[i][j]:以i-1为结尾的s子序列中......
  • 爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)
    #UA检测:门户网站的服务器会检测对应请求的载体身份标识,如果检测到请求载体的身份标识为某一款浏览器,说明是正常用户通过浏览器发起的正常的请求#如果检测到非浏览器发起的请求,则表示请求可能为不正常的请求(爬虫),那么有可能就会拒绝该请求#UA:User-Agent:(请求身份载体的身份标识)i......
  • p站图片爬取
    python爬虫主要思路:1.选取目标网页:获得链接,观察源代码构成。2.用request库的get方法取得源代码。其中header参数用于伪装正常浏览器发送请求,proxies用于设置访问代理,url为目标网站3.获取text后用BS对象查找相应内容标签,要注意利用id,class名的特殊性。4.获取到相应内容标签后需......
  • P5851 [USACO19DEC] Greedy Pie Eaters P
    n,m较小,同时又是区间问题,可以考虑区间dp。设定\(f[i][j]\)为只在i~j范围内操作的最大贡献,为了将操作表示出来可以设g[k][i][j]为在i~j内操作一次的包括k点最大贡献。通过这些可以推出:\(f[i][j]=max_{k=i}^jf[i][k-1]+f[k+1][j]+g[k][i][j]\),这样一来两边的操作也不会冲突......
  • P3958 [NOIP2017 提高组] 奶酪
    原题链接思路并查集然后看看是否存在上表面联通的洞与下表面联通的洞位于同一集合code#include<bits/stdc++.h>usingnamespacestd;doublen,h,r;intfa[1005];vector<int>up,down;struct{doublex,y,z;}hole[1005];doubledis(inti,intj){returnpo......
  • Python 爬取历史天气数据
    网站原始数据https://www.tianqishi.com/hangzhou/20240214.html源码importrequestsfrombs4importBeautifulSoupimportdatetimedefgetEachDayWeather(loaction,timeStamp):"""获取每一天的天气数据"""#1.获取网页地址urlHea......