首页 > 编程语言 >Python爬虫 -- Selenium库的使用

Python爬虫 -- Selenium库的使用

时间:2022-12-26 21:04:45浏览次数:33  
标签:webdriver sr 浏览器 Python Selenium selenium -- bs import


0x00 Selenium库的作用

模拟真实浏览器获取相关数据,比如有些网站检测token等值的时候,可以通过selenium库进行绕过

0x01 环境搭建

1、安装selenium库

pip3 install selenium

2、查看浏览器版本

Python爬虫 -- Selenium库的使用_python

3、下载浏览器驱动,以谷歌为例,最后一位数字无所谓

http://chromedriver.storage.googleapis.com/index.html

Python爬虫 -- Selenium库的使用_获取数据_02

Python爬虫 -- Selenium库的使用_selenium_03

4、将解压的chromedriver.exe,复制到python的根目录

Python爬虫 -- Selenium库的使用_Chrome_04

0x02 初始化浏览器对象

支持Chrome、Firefox、Edge、Safari等电脑端的浏览器

bs=webdriver.Chrome()

0x03 访问网站

bs.get('https://www.baidu.com')

0x04 获取编辑框的id,并输入我们想要搜索的数据

sr=bs.find_element('id','kw')
sr.send_keys('python')
sr.send_keys(Keys.ENTER)

0x05 等待出现结果,然后再获取数据

wt=WebDriverWait(bs,10)#创建一个等待的对象,等待10秒
wt.until(EC.presence_of_element_located((By.ID,'content_left')))#当节点id是content_left出现的时候获取数据
print(bs.page_source[:100]) #获取源码 前100个字节

0x06 关闭创建的浏览器

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait


bs=webdriver.Chrome()
bs.get('https://www.baidu.com')
sr=bs.find_element('id','kw')
sr.send_keys('python')
sr.send_keys(Keys.ENTER)
wt=WebDriverWait(bs,10)
wt.until(EC.presence_of_element_located((By.ID,'content_left')))
print(bs.page_source[:100])
bs.close()

0x07 运行效果

自动启动浏览器,输入python,并获取搜索到的界面,然后自动关闭

Python爬虫 -- Selenium库的使用_python_05

0x08 声明

仅供安全研究与学习之用,若将工具做其他用途,由使用者承担全部法律及连带责任,作者不承担任何法律及连带责任。

欢迎关注公众号编程者吧

Python爬虫 -- Selenium库的使用_获取数据_06

标签:webdriver,sr,浏览器,Python,Selenium,selenium,--,bs,import
From: https://blog.51cto.com/u_15288375/5970993

相关文章

  • 网络爬虫 -- 验证码识别
    0x00下载安装tesseract1、下载地址http://digi.bib.uni-mannheim.de/tesseract/2、安装成功后,配置环境变量3、检查是否设置成功tesseract-v4、安装tesseract库和pillow库......
  • 爬虫内容保存到txt文件
    0x01源码如下frompyqueryimportPyQueryimportrequestsurl="https://www.dandanzan10.top/dianying/index.html"heads={'user-agent':'Mozilla/5.0(WindowsN......
  • pyquery库和parsel库的使用
    0x01安装pyquery库该库可以直接通过css选择器进行字符串查找pipinstallpyquery0x02初始化操作通过PyQuery初始化字符串frompyqueryimportPyQueryimportrequestsurl......
  • 爬虫学习笔记 -- 实战某电影网(lxml库版)
    0x01安装lxml库文件pip3installlxml0x02初始化字符串1、通过HTML类初始化字符串fromlxmlimportetreeimportrequestsurl="https://www.dandanzan10.top/dianying/i......
  • 爬虫学习笔记 -- requests库基础
    0x01requests库安装1、通过控制台运行下面代码pip3installrequests2、通过Pycharm安装,点击+号,搜索requests,然后点击安装 0x02GET请求1、普通请求importrequestsurl="h......
  • 爬虫学习笔记 -- 正则表达式
    0x01match1、从头开始匹配,只能匹配一次importrestr="1a2b3c456d7e890f"res=re.match('\d+',str)print(res.group())运行结果:12、通用匹配符.*?importrestr="11a2b3c456d7e......
  • 火山中文编程 -- 封装信息框API
     ......
  • OD修改软件
    一、打开软件,查看正常运行的程序二、打开OD,拖入要调试的程序三、分析汇编代码title是"Helloworld",内存地址是0x00403000四、数据窗口跳转到该地址,快捷键ctrl+G五、修改数据......
  • JS逆向 -- 本地调试
    一、通过Fiddler抓包,找到要替换的JS文件,这里要替换的事md5.js二、新建一个md5.js文件,内容为包里的内容,为了区分,我们给他多加一个变量三、将该包,拖到AutoResponder选项卡,该打......
  • JS逆向 -- HOOK关键数据
    一、安装油猴插件​​https://ext.se.360.cn/webstore/search/tampermonkey​​二、添加新脚本三、常用代码1、name:该脚本的名字2、match:要hook的网站:一般填写http://*/*3、......