首页 > 其他分享 >爬取所有城市名称

爬取所有城市名称

时间:2024-02-26 21:36:35浏览次数:18  
标签:__ city xpath text 城市 list li 爬取 名称

from lxml import etree
import requests
#爬取所有城市名称
if __name__ == '__main__':

    url = 'https://www.aqistudy.cn/historydata/'
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'
    }
    response= requests.get(url=url, headers=headers)
    # response.encoding= 'utf-8'
    page_text = response.text
    tree = etree.HTML(page_text)
    print(tree)
    fp = open('city.txt','w',encoding='utf-8')
    all_city = []
    top_li_list = tree.xpath('//div[@class="hot"]//ul/li')
    all_li_list = tree.xpath('//div[@class="all"]//ul/div[2]/li')
    for li in top_li_list:
        data = li.xpath('./a/text()')[0]
        all_city.append(data)
    for li in all_li_list:
        data = li.xpath('./a/text()')[0]
        all_city.append(data)
    for city in all_city:
        fp.write(city+'\n')

标签:__,city,xpath,text,城市,list,li,爬取,名称
From: https://www.cnblogs.com/lin513/p/18035611

相关文章

  • 爬取彼岸图库中的图片数据
    fromlxmlimportetreeimportrequestsimportos#爬取彼岸图库中的图片数据if__name__=='__main__':#爬取到页面源码数据url='https://pic.netbian.com/4kmeinv/'headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;W......
  • 爬取58二手房数据
    fromlxmlimportetreeimportrequests#爬取58二手房if__name__=='__main__':#爬取到页面源码数据url='https://m.58.com/bj/ershoufang/?reform=pcfront&PGTID=0d000001-000f-1085-0e36-5f17322b35a6&ClickID=1'headers={......
  • MAUI Blazor+MASA开发安卓应用学习笔记 - 设置APP格式、名称、版本信息
    上一期说到了如何生成APP应用,生成的文件是AAB格式的,这个格式安装不是很方便,如果能生成APK就好了 一、设置APP格式打开项目文件.csproj,在PropertyGroup下添加属性<AndroidPackageFormat>apk</AndroidPackageFormat>二、设置名称和版本信息在项目文件里,可以设置全局的应用......
  • WPF|--XAML|--使用其它名称空间中类型
    关键字词XAML--使用其它名称空间中类型语法格式<!--{}括起来的表示占位符-->xmlns:{Prefix}="clr-namespace:{Namespace};assembly={AssemblyName}"示例<!--演示如何访问System名称空间中的基本类型,并将其映射为前缀"sys_mine:"--><UserControlx:Class="WpfAp......
  • c#控件名称简写
    c#控件名称简写控件名称缩写介绍公共控件Buttonbtn按钮CheckBoxchk复选框CheckedListBoxckl显示一个项列表,其中每一项左侧都有一个复选框ComboBoxcmb下拉列表框DateTimePickerdtp时间控件Labellbl文本列表LinkLabelllb支持超链......
  • 每日(python爬取)
    python爬取网络小说清洗并下载至txt文件 什么是爬虫网络爬虫,也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来,以......
  • 从图纸到BIM到数字孪生城市(元宇宙),易如反掌!
    当智能建模平台与虚幻引擎相遇时,它们又能碰撞出怎样的火花呢?智能建模怎么玩?以南昌某职业学院项目为例,这个项目总共有16栋楼,我们直接用智能建模平台”bim.zonst.com“将施工图纸转换为三维模型,首先简单检查下施工图纸(约1h),如果是第一次使用智能建模平台的建议看下平台帮助中心-......
  • 走进“城市白模”:预览未来城市的无限可能
    随着科技的飞速发展,城市规划与建设已经迈入了一个全新的时代。在这个时代里,“城市白模”成为了设计师、建筑师、城市规划者乃至普通市民的热门话题。那么,什么是“城市白模”?它又如何改变我们对城市的认知与期待呢? 城市白模,顾名思义,是城市的“白色模型”。它是一个没有贴图、没......
  • zabbix修改主机名称可支持中文名
    如图默认情况下,Zabbix是不支持主机名中存在中文字符的,要让zabbix主机名支持中文,需要修改zabbix的php代码文件, 实线步骤:找到zabbixweb目录,一般在/var/www/zabbix或者/usr/share/zabbix下 找到zabbixweb目录,一般在/var/www/zabbix或者/usr/share/zabbix下一、修改/usr/......
  • 爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)
    #UA检测:门户网站的服务器会检测对应请求的载体身份标识,如果检测到请求载体的身份标识为某一款浏览器,说明是正常用户通过浏览器发起的正常的请求#如果检测到非浏览器发起的请求,则表示请求可能为不正常的请求(爬虫),那么有可能就会拒绝该请求#UA:User-Agent:(请求身份载体的身份标识)i......