首页 > 编程语言 >python工具集

python工具集

时间:2023-11-26 09:56:06浏览次数:34  
标签:10 python selenium 工具集 mu pnmax import pn

selenium

介绍:Selenium 是一种开源工具,用于在 Web 浏览器上执行自动化测试。

背景:对已推送到搜索引擎的url进行下线(用户反馈不想展现)。

版本:python 3.8.9,selenium 4.15.2。

from selenium import webdriver
from selenium.webdriver.common.by import By
import re
import time

query = input('请输入query:')
pnmax = input('请输入最大的页数:')
pnmax = int(pnmax) * 10
pattern = input('请输入待匹配url决定性的标识,如 openNotice:')

driver = webdriver.Firefox()

# 待下线的url保存在文件中
with open('/Users/sjm/offlineurl', 'w') as f:
    # 遍历所有的页面
    for pn in range(0, pnmax, 10):
        # 通过百度搜索试验出是否能用这种简略的方式返回结果。其中 site 可以限定返回指定域名的搜索结果
        baseurl = 'https://www.baidu.com/s?wd=' + query + ' site:aiqicha.baidu.com&pn=' + str(pn)
        driver.get(baseurl)
        # 参考xpath语法
        elements = driver.find_elements(By.XPATH, "//div[@class='result c-container xpath-log new-pmd']")
        for each in elements:
            # mu就是链接
            mu = each.get_attribute("mu")
            match = re.search(pattern, mu)
            if match:
                f.write(mu)
        # 防止过快的请求
        time.sleep((pn + 10) / 10)
driver.close()

标签:10,python,selenium,工具集,mu,pnmax,import,pn
From: https://www.cnblogs.com/sjmuvx/p/17847330.html

相关文章

  • 聪明办法学python Task2
    **数据类型操作**对于常用内置库python对于编译有很多的封装函数python是一门面向对象友好的语言分类与回归回归比方说游戏本均价8K这是回归反之分类是8K能买到什么东......
  • PYTHON用KERAS的LSTM神经网络进行时间序列预测天然气价格例子|附代码数据
    全文下载链接:http://tecdat.cn?p=26519最近我们被客户要求撰写关于LSTM的研究报告,包括一些图形和统计输出。一个简单的编码器-解码器LSTM神经网络应用于时间序列预测问题:预测天然气价格,预测范围为10天。“进入”时间步长也设置为10天。)只需要10天来推断接下来的10天。......
  • 聪明办法学python(2)
    聪明办法学python(2)TASK03:数据类型与操作一.常用内置类型:1.1整数integer(int)1.2浮点数Floatprint(0.1+0.1==0.2)#Trueprint(0.1+0.1+0.1==0.3)#False!print(0.1+0.1+0.1)#0.30000000000000004print((0.1+0.1+0.1)-0.3)#特别小,5.55111512312......
  • Python2
    Python笔记2常用内置类型整数int浮点数Float### 布尔值boolTrue——>真False——>假类型Typetype()返回类型内置常数math中的常量pietauinf浮点正无穷大常用内置运算符算数+-*/,浮点除5/2=2.5//,整除5//2=2%,取余5%2=1**,......
  • 聪明办法学python-task2
    变量与函数变量-->标签;新值数据类型和旧值不必相同,覆盖变量命名规则必须以字母下划线开头,命名由字母,数字,下划线组成大小写敏感尽量避免使用保留字命名多变量赋值a,b,c=1,2,6两边对等,元组的解包函数headerbody在Python中,定义一个函数要使用def语句,依次写出函......
  • 聪明办法学python task03,task04
    条件语句  if条件:                      多个条件判断用elif如果判断需要多个条件需同时判断时,可以使用or(或),表示两个条件有一个成立时判断条件成功;使用and(与)时,表示只有两个条件同时成立的情况下,判断条件才成功循环语句:for......
  • python第二次学习笔记
    python中的四大数据类型:1.list(列表):*list是一种有序的集合,可以随时添加和删除其中的元素。比如,我们可以列出一些名字就可以用一个list表示:  >>>names=['Mike','Tom','Bob']我们也可以列出一些数字:>>>numbers=[1,3,5,6,7]在第一个的列表中,我们......
  • Python基础语法
    输入输出print():基础控制台输出将()中的内容输入到控制台(console)中直接输出字符串要使用引号包裹 print("hello,world")使用“end”来控制输出结尾(默认以\n(换行)结尾) print("hello,world",end="")#不换行结束 print("hello,world",end="*")#以*作为结尾 prin......
  • python task2
    python(二)数据类型和操作基本类型整数Integer(int)浮点数Float布尔值Boolean(bool)类型Type字符串String(str)列表List元组Tuple集合Set字典Dictionary(dict,或者映射map)复数ComplexNumber(complex)函数Function模块Module常用内置常数python内置了一......
  • Python GUI 开发过程中踩过的坑总结
    1、在使用pycharm开发运行时,ide会默认添加python文件和资源文件到python路径中去,所以通常不会报错,但是默写情况则会出现报错,如模块加载不到其他模块的问题。在手动创建项目工程目录结构时,需要将指定的python文件存放目录设定为【sourcesroot】,然后在该目录下在创建目录时要创建......