selenium模块介绍
什么是selenium模块?
- 基于浏览器自动化的一个模块
selenium模块的功能:
- 便捷的获取网站中动态加载的数据
- 便捷实现模拟登录
selenium使用流程:
-
下载一个浏览器的驱动程序(谷歌浏览器)
-
实例化一个浏览器对象
-
编写基于浏览器自动化的操作代码
- 发起请求:get(url)
- 标签定位:find系列的方法
- 标签交互:send_keys('xxx')
- 执行js程序:excute_script('jsCode')
- 前进,后退:back(),forward()
- 关闭浏览器:quit()
selenium的基本使用:
from selenium import webdriver
from time import sleep
#实例化一个浏览器对象(传入浏览器的驱动程序)
bro = webdriver.Chrome(executable_path='./chromedriver.exe')
#让浏览器发起一个指定url对应请求
bro.get('https://www.taobao.com/')
#标签定位
search_input = bro.find_element_by_id('q')
#标签交互
search_input.send_keys('Iphone')
#执行一组js程序,实现滚动条滑动一个屏幕的距离
bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')
sleep(2)
#点击搜索按钮
btn = bro.find_element_by_css_selector('.btn-search')
btn.click()
#请求百度网页
bro.get('https://www.baidu.com')
sleep(2)
#回退:回退到淘宝
bro.back()
sleep(2)
#前进:又前进到百度
bro.forward()
sleep(5)
#获取页面源码数据,所见即所得
bro.page_source
#退出
bro.quit()
处理iframe及动作链操作
- 如果定位的标签存在于iframe标签之中,则必须使用switch_to.frame(id)
- 动作链(拖动):from selenium.webdriver import ActionChains
- 实例化一个动作链对象:action = ActionChains(bro)
- click_and_hold(div):长按且点击操作
- move_by_offset(x,y)
- perform()让动作链立即执行
- action.release()释放动作链对象
示例演示:
from selenium import webdriver
from time import sleep
from selenium.webdriver import ActionChains #导入动作链对应的类
bro = webdriver.Chrome(executable_path='./chromedriver')
bro.get('https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')
#如果定位的标签是存在于iframe标签之中的则必须通过如下操作进行标签定位
bro.switch_to.frame('iframeResult')#切换浏览器标签定位的作用域
div = bro.find_element_by_id('draggable')
#动作链
action = ActionChains(bro)
#点击长按指定的标签
action.click_and_hold(div)
for i in range(5):
#perform()立即执行动作链操作
#move_by_offset(x,y):x水平方向 y竖直方向
action.move_by_offset(17,0).perform()
sleep(0.5)
#释放动作链
action.release()
bro.quit()
实现无头浏览器与反检测
实现无可视化界面:在一些情况下,不需要看见爬取的可视化界面
实现规避检测:一些网站会检测请求是否为selenium发出,并会拒绝selenium的访问
from selenium import webdriver
from time import sleep
from selenium.webdriver.chrome.options import Options #实现无可视化界面
from selenium.webdriver import ChromeOptions #实现规避检测
#实现无可视化界面的操作
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
#实现规避检测
option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])
#如何实现让selenium规避被检测到的风险
bro = webdriver.Chrome(executable_path='./chromedriver',chrome_options=chrome_options,options=option)
#无可视化界面(无头浏览器)
bro.get('https://www.baidu.com')
print(bro.page_source)
sleep(2)
bro.quit()
模拟图片点击识别
#获取上述图片
#使用selenium打开登录页面
from selenium import webdriver
from PIL import Image #pip install pillow即可
from selenium.webdriver import ActionChains
import time
bro = webdriver.Chrome(executable_path='./chromedriver')
bro.get('https://kyfw.12306.cn/otn/login/init')
time.sleep(1)
#save_screenshot就是将当前页面进行截图且保存
bro.save_screenshot('screenshot.png')
#确定验证码图片对应的左上角和右下角的坐标
code_img_ele = bro.find_element_by_xpath('//[@id="loginForm"]/div/ul[2]/li[4]/div/div/div[3]/img')
location = code_img_ele.location # 验证码图片左上角的坐标 x,y
size = code_img_ele.size #验证码标签对应的长和宽
#左上角和右下角坐标
rangle = (int(location['x']), int(location['y']), int(location['x'] + size['width']), int(location['y'] + size['height']))
i = Image.open('./screenshot.png')
#crop根据指定区域进行图片裁剪
frame = i.crop(rangle)
frame.save('./codepic.png')
借助超级鹰来进行图片验证:https://www.chaojiying.com/,使用流程为:
- 注册
- 获得题分
- 下载示例代码
#下述代码为超级鹰提供的示例代码
import requests
from hashlib import md5
class Chaojiying_Client(object):
def __init__(self, username, password, soft_id):
self.username = username
password = password.encode('utf8')
self.password = md5(password).hexdigest()
self.soft_id = soft_id
self.base_params = {
'user': self.username,
'pass2': self.password,
'softid': self.soft_id,
}
self.headers = {
'Connection': 'Keep-Alive',
'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
}
def PostPic(self, im, codetype):
"""
im: 图片字节
codetype: 题目类型 参考 http://www.chaojiying.com/price.html
"""
params = {
'codetype': codetype,
}
params.update(self.base_params)
files = {'userfile': ('ccc.jpg', im)}
r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers)
return r.json()
def PostPic_base64(self, base64_str, codetype):
"""
im: 图片字节
codetype: 题目类型 参考 http://www.chaojiying.com/price.html
"""
params = {
'codetype': codetype,
'file_base64':base64_str
}
params.update(self.base_params)
r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, headers=self.headers)
return r.json()
def ReportError(self, im_id):
"""
im_id:报错题目的图片ID
"""
params = {
'id': im_id,
}
params.update(self.base_params)
r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
return r.json()
#将验证码图片提交给超级鹰进行识别
chaojiying = Chaojiying_Client(username, password, soft_id)
im = open('codepic.png', 'rb').read()
result = chaojiying.PostPic(im, 解析方式的对应号码)['pic_str']
#result返回形式为:'123,43|555,11'
all_list = [] #要存储即将被点击的点的坐标 [[x1,y1],[x2,y2]]
if '|' in result:
list_1 = result.split('|')
count_1 = len(list_1)
for i in range(count_1):
xy_list = []
x = int(list_1[i].split(',')[0])
y = int(list_1[i].split(',')[1])
xy_list.append(x)
xy_list.append(y)
all_list.append(xy_list)
else:
x = int(result.split(',')[0])
y = int(result.split(',')[1])
xy_list = []
xy_list.append(x)
xy_list.append(y)
all_list.append(xy_list)
#遍历列表,使用动作链对每一个列表元素对应的x,y指定的位置进行点击操作
for l in all_list:
x = l[0]
y = l[1]
ActionChains(bro).move_to_element_with_offset(code_img_ele, x, y).click().perform()
time.sleep(0.5)
标签:selenium,self,list,bro,params,import
From: https://www.cnblogs.com/vahan/p/16869001.html