首页 > 其他分享 >selenium爬虫 根据域名后缀查询网站数量

selenium爬虫 根据域名后缀查询网站数量

时间:2023-05-29 11:13:17浏览次数:44  
标签:aa 后缀 selenium driver 爬虫 text import id dir

本质是对‘site’功能的自动化查询

import re
from selenium import webdriver

a = {'org.do', ...., 'org.ua'}

driver = webdriver.Chrome()
driver.get("https://www.baidu.com/")
p_input = driver.find_element_by_id('kw')
dir_ = {}
d_ = []
import time

for aa in a:
    p_input.send_keys('site:{}'.format(aa))
    p_btn = driver.find_element_by_id('su')
    p_btn.click()
    time.sleep(2)
    try:
        text = driver.find_element_by_xpath('//*[@id="content_left"]/div[1]/div/p[1]/b').text
        number = re.findall("\d+", text)  # 输出结果为列表
        if int(''.join(number)) < 100:
            d_.append(aa)
        dir_[aa] = text
    except:
        d_.append(aa)
        dir_[aa] = 0
    p_input.clear()

print(d_)
print(dir_)
import pandas as pd

pd.DataFrame(dir_, index=[0]).to_excel('2.xlsx', index=False)
driver.close()

  

标签:aa,后缀,selenium,driver,爬虫,text,import,id,dir
From: https://www.cnblogs.com/chrysanthemum/p/17439883.html

相关文章

  • 使用Python实现分布式爬虫
    使用Python实现分布式爬虫在Web爬虫中,分布式爬虫已经成为一种流行的技术,可以帮助我们快速地收集互联网上的数据。下面我们将介绍如何使用Python实现分布式爬虫。什么是分布式爬虫?分布式爬虫是指将爬虫任务分配给多个计算机节点执行,以提高爬取效率和稳定性的一种技术。分布式爬虫通......
  • 记一次爬虫
    先感谢403F的帮助要爬的是https://soutubot.moe/然后就遇到了问题贯穿始终的是401未授权访问,但是请求包里不包含token一类的,cookie也放了,将整个导入到postman里面发现能够请求成功,然后只有请求头可能出问题,那就是请求头的问题请求头一个一个去掉发现比较重要的一项是x-api-k......
  • Python 爬虫神器 requests 工具
    一、模块安装pipinstallrequests二、常用方法在实际的爬虫中,其实真正用到的只有GET、POST,像其他的方法基本用不到,比如:DELETE、HEAD、PUT等。1、GET方法headers={'user-agent':'my-app/0.0.1'}payload={'key1':'value1','key2':'value2'}re......
  • SA后缀数组学习笔记
    什么是后缀数组后缀数组主要是用来处理字符串的,分为两种方法:倍增法以及DC3,但由于倍增法通俗易懂,码量小,常数小,所以今天这篇文章我就只介绍倍增法(不可能是因为我不会DC3)前缀知识No.1基数排序跟桶排序差不了多少,思想就是:将整数按位数切割成不同的数字,然后按每个位数分别比较。......
  • selenium
    1.好库推荐 https://brucedone.com/archives/1579pipinstall webdriver_managerfromseleniumimportwebdriverfromwebdriver_manager.chromeimportChromeDriverManagerdriver=webdriver.Chrome(ChromeDriverManager().install())driver.get("https://brucedone.c......
  • 如何优化Python爬虫的速度?
    Python爬虫慢的原因有很多,网络延迟高、爬取数据量过大、爬虫程序设计问题、不合理的请求头设置、Python解释器性能问题等都是制约爬虫速度的重要因素。总之,在遇到Python爬虫慢的问题时,需要详细了解可能出现的原因,并根据具体情况进行相应的调整和改进,保证程序的稳定性和效率。......
  • python 自动化 selenium 入门
    Selenium创建基于浏览器的强大回归自动化套件和测试。而要控制和驱动实际的浏览器浏览器,需要下载与浏览器对应品牌和版本的WebDriver驱动程序。比如chrome和edge浏览器分别对应:chromedriver.exe和msedgedriver.exe如果你不想手动下载,也可以安装webdriver-manager自动......
  • 如何优化Python爬虫的速度?
    Python爬虫慢的原因有很多,网络延迟高、爬取数据量过大、爬虫程序设计问题、不合理的请求头设置、Python解释器性能问题等都是制约爬虫速度的重要因素。总之,在遇到Python爬虫慢的问题时,需要详细了解可能出现的原因,并根据具体情况进行相应的调整和改进,保证程序的稳定性和效率。以......
  • CentOS系统如何做爬虫
    CentOS系统可以用来做爬虫,它是一种基于Linux的操作系统,具有稳定性高、安全性好、资源占用低等优点,适合用来搭建服务器和运行爬虫程序。在CentOS系统上搭建爬虫环境,需要安装Python解释器和相关的第三方库,如requests、beautifulsoup4、scrapy等。可以使用yum命令或者pip命令来安装......
  • Katana:一款功能强大的下一代网络爬虫框架
    关于KatanaKatana是一款功能强大的下一代网络爬虫框架,在该工具的帮助下,广大研究人员可以轻松完成资源爬取和渗透测试阶段的信息收集任务。功能介绍1、快速且完全可配置的网络资源爬取;2、支持标准模式和Headless模式;3、JavaScript解析/爬取;4、可自定义的自动化表单填充;5、范......