首页 > 其他分享 >selenium自动化好用的工具,亲测亲是很好用

selenium自动化好用的工具,亲测亲是很好用

时间:2024-02-26 13:58:20浏览次数:21  
标签:chrome driver self selenium 好用 -- proxy options 亲测

rpa自动化这个词,在今天的这个时代相应大家并不陌生,自动化可以帮人做掉很多繁琐的事情,它可以不休息,只要给他写好程序,配置部署就可以一直在工作,废话不多说,直接上干货

 

1、selenium的sessionid的使用

selenium分为本地打开和远程模式打开,有时候我们不想在操作自动化的过程中,通常都是打开一个浏览器做完事情给他关闭,如果下次要用再打开,但是其实登录的过程是稍微费时间的,我们可以用sessionid让浏览器一直活着。

(1)必须使用远程模式

(2)将获取的sessionid存起来,下次打开一个新的直接用旧的赋值,新的关闭

 1 # 查看文件是否有 session_id
 2 with open(driversession_full_name, "r+") as f:
 3     content = f.read()
 4 
 5 # 获取session_id
 6 session_id = content if content else ""
 7 
 8 if not session_id:
 9     #如果没有sessionid就是首次打开 
10     first_flag,driver = fisrt_open(url, username, password,driversession_full_name,img_screen,img_captcha)
11     return first_flag,driver
12 else:
13     remote_url = "http://localhost:4444/wd/hub"
14 
15     # 创建DesiredCapabilities对象,指定远程浏览器的名称和版本
16     desired_capabilities = DesiredCapabilities.CHROME.copy()
17     desired_capabilities['browserName'] = 'chrome'
18     desired_capabilities['version'] = ''  # 这里设置为空字符串,表示使用最新版本的Chrome浏览器
19 
20     # 创建WebDriver对象,连接到远程浏览器
21     driver = webdriver.Remote(command_executor=remote_url, desired_capabilities=desired_capabilities)
22 
23     # 赋值给新对象  旧对象关闭
24     new_driver = driver
25     driver.close()
26     new_driver.session_id = session_id
View Code  

2、  cookies的使用

其实有时候免登录,也可以将浏览器的cookies值存下来入库,下次使用的时候直接load进去

 1 #cookies获取 可以通过json.dumps方式入库 json.dumps(cookies)
 2 cookies = driver.get_cookies()
 3 #使用cookies的时候 打开到对应地址的登陆页面 进行load_cookie
 4 def load_cookie(driver, cookies):
 5     try:
 6         cookies = json.loads(cookies)
 7         for cookie in cookies:
 8             driver.add_cookie(cookie)
 9         driver.refresh()
10         return driver
11     except:
12         return driver
View Code  

3、  缓存文件夹的使用

使用cookies是一种保存会话的方式,但是他的实效性跟缓存文件夹的比起来时效性太短了,采用数据缓存就可以了

(1)打开浏览器的时候配置这个参数:--user-data-dir ,位置盘不要放C盘,这样子也可以减少c盘内存的消耗的增长

(2)无痕模式禁止使用,否则会导致缓存文件夹无法使用

1 chrome_options.add_argument(r'--user-data-dir=D:\chromedriver\account-cache' )
View Code

 

 

4、  浏览器监听功能的使用

在自动化的过程中,其实除了从网页中获取元素的信息情况,也可以通过接口,可以采用监听接口的方式获取数据,这边封装了一个监听基于selenium,使用的时候就实例化这个类,按对应的端口创建selenium和代理,不用的时候stop即可。

(1)本地有一个java监听文件browsermob-proxy-2.1.4

  1 class SeleniumProxy():
  2     def __init__(self, port=20000):
  3         self.proxy = None  # 代理
  4         self.driver = None  # 浏览器
  5         self.server = None  # 监听服务
  6         self.port = port  # 服务端口
  7         self.proxy_port = port + 1000  # 代理端口
  8         self.chrome_pid = None  # 浏览器
  9         self.create_proxy()
 10 
 11     def create_proxy(self):
 12         # 原本使用
 13         self.server = Server(r'D:\javajar\browsermob-proxy-2.1.4\bin\browsermob-proxy.bat', options={"port": self.port})
 14         self.server.start()
 15         self.proxy = self.server.create_proxy({"port": self.proxy_port, "proxyPort": self.proxy_port, "proxyPerProcess": True, "proxyVia": True, "trustAllServers": True})
 16 
 17     def create_driver(self, incognito=False, account=None, use_cache=False):
 18         chrome_options = Options()
 19         # normal:等待整个页面加载完毕再开始执行操作--默认
 20         # eager:等待整个dom树加载完成,即DOMContentLoaded这个事件完成,也就是只要 HTML 完全加载和解析完毕就开始执行操作。放弃等待图片、样式、子帧的加载。
 21         # none:等待html下载完成,哪怕还没开始解析就开始执行操作。
 22         # chrome_options.page_load_strategy = 'eager'
 23         chrome_options.add_argument('--no-sandbox')
 24         chrome_options.add_argument('--disable-gpu')
 25         chrome_options.add_argument('--disable-cache')
 26         chrome_options.add_argument("--disable-application-cache")
 27         if use_cache:
 28             if not account:
 29                 raise ValueError("启用缓存时,account为必传参数")
 30             #如果要用缓存 禁用无痕模式 无痕模式一开 缓存就不能用了
 31             # chrome_options.add_argument(r'--disk-cache-dir=D:\chromedriver\chrome-cache\%s' % account)  # 指定硬盘缓存路径
 32             chrome_options.add_argument(r'--user-data-dir=D:\chromedriver\account-cache\%s' % account)  # 指定数据缓存路径
 33         chrome_options.add_argument('--proxy-server={0}'.format(self.proxy.proxy))
 34         chrome_options.add_argument('--ignore-certificate-errors')
 35         chrome_options.add_argument('--ignore-urlfetcher-cert-requests')
 36         chrome_options.add_argument("--disable-blink-features=AutomationControlled")
 37         chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"])
 38         chrome_options.add_experimental_option("useAutomationExtension",'False')
 39         # 加载插件的路径
 40         # chrome_options.add_argument("--load-extension=D:\chromedriver\contentChecker")
 41         if incognito:
 42             chrome_options.add_argument("--incognito")  # 启用无痕模式
 43 
 44         remote_url = "http://localhost:4444/wd/hub"
 45 
 46         # 创建DesiredCapabilities对象,指定远程浏览器的名称和版本
 47         desired_capabilities = DesiredCapabilities.CHROME.copy()
 48         desired_capabilities['browserName'] = 'chrome'
 49         desired_capabilities['version'] = ''  # 这里设置为空字符串,表示使用最新版本的Chrome浏览器
 50         # self.driver = webdriver.Remote(
 51         #     command_executor=remote_url,
 52         #     desired_capabilities=desired_capabilities,
 53         #     options=chrome_options)
 54 
 55         #走本地打开
 56         self.driver = webdriver.Chrome(
 57             # desired_capabilities=desired_capabilities,
 58             options=chrome_options)
 59         self.chrome_pid = self.driver.service.process.pid
 60         self.driver.maximize_window()
 61         return self.driver
 62 
 63     # 修改driver文件下载路径
 64     def change_download_path(self, path):
 65         params = {"behavior": "allow", "downloadPath": path}
 66         self.driver.execute_cdp_cmd("Page.setDownloadBehavior", params)
 67 
 68     # 开启监听,重复调用可重置
 69     def create_har(self):
 70         self.proxy.new_har("doudian_har_%s" % self.proxy_port, options={'captureHeaders': True, 'captureContent': True, 'captureBinaryContent': True})
 71 
 72     def get_result(self, api, set_time=5):
 73         for i in range(3):  # 循环3次,如果接口还没有响应,没有数据
 74             logger.info("第%s次等待接口响应结果" % i)
 75             result = self.proxy.har
 76             for entry in result['log']['entries']:
 77                 _url = entry['request']['url']
 78                 # 根据URL找到数据接口
 79                 if api in _url:
 80                     _response = entry['response']
 81                     _content = _response['content'].get('text')
 82                     if not _content:
 83                         break
 84                     # 获取接口返回内容
 85                     return self.decode_data(_content, api)
 86             # set_time = set_time+2
 87             time.sleep(set_time)
 88         return []
 89 
 90     def get_full_api(self, api, set_time=5):
 91         for i in range(3):  # 循环3次,如果接口还没有响应,没有数据
 92             logger.info("第%s次等待接口响应结果" % i)
 93             result = self.proxy.har
 94             for entry in result['log']['entries']:
 95                 _url = entry['request']['url']
 96                 # 根据URL找到数据接口
 97                 if api in _url:
 98                     _response = entry['response']
 99                     _content = _response['content'].get('text')
100                     if not _content:
101                         break
102                     # 获取接口返回内容
103                     return {"url": _url, "result": self.decode_data(_content, api)}
104             # set_time = set_time+2
105             time.sleep(set_time)
106         return {}
107 
108     def decode_data(self, data, api):
109         try:
110             decoded_data = base64.b64decode(data)
111             return brotli.decompress(decoded_data).decode('utf-8')
112         except:
113             logger.info("响应结果编码错误")
114             logger.info(data)
115             try:
116                 data = json.loads(data)
117             except:
118                 pass
119             return json.dumps({'msg': '响应结果编码错误', 'data': data, 'api': api})
120 
121     def stop_all(self):
122         if self.server:
123             self.server.stop()
124         if self.driver:
125             self.driver.quit()
126         if self.proxy:
127             self.proxy.close()
128         # logger.info(self.chrome_pid)
129         try:
130             kill_processes_by_port(self.port, kill_java=False)
131         except:
132             pass
133         try:
134             process = psutil.Process(self.chrome_pid)
135             process.terminate()
136         except:
137             pass
View Code

 

 

5、  也可以接管打开浏览器,对于-remote-debugging-port值,可以指定任何打开的端口。对于-user-data-dir标记,指定创建新Chrome配置文件的目录。它是为了确保在单独的配置文件中启动chrome,不会污染你的默认配置文件。

(1)将chrome的可执行路径配置进环境变量path

(2)将chromedriver的可执行路径配置进环境变量path

 1 #打开cmd 
 2 chrome.exe --remote-debugging-port=9222 --user-data-dir="C:\selenum\AutomationProfile"
 3 
 4 #python代码
 5 from selenium import webdriver
 6 from selenium.webdriver.chrome.options import Options
 7 
 8 
 9 chrome_options = Options()
10 chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:9222")
11 # driver就是当前浏览器窗口
12 driver = webdriver.Chrome(options=chrome_options)
13 driver.get("https://www.baidu.com")
View Code

 

这以上是近几个月用下来觉得还不错,综合整理记录下。

标签:chrome,driver,self,selenium,好用,--,proxy,options,亲测
From: https://www.cnblogs.com/zhe-hello/p/18034183

相关文章

  • Airtest-Selenium实操小课:刷B站视频
    1.前言上一课我们讲到用Airtest-Selenium爬取网站上我们需要的信息数据,还没看的同学可以戳这里看看~那么今天的推文,我们就来说说看,怎么实现看b站、刷b站的日常操作,包括点击暂停,发弹幕,点赞,收藏等操作,仅供大家参考学习~2.需求分析和准备整体的需求大致可以分为以下步骤:打开chr......
  • 全栈开发 - 从 Vue 配置中解决 CORS 跨域问题【亲测有效】
    一、CORS跨域问题解决1.1、前言如果你后端使用的是微服务项目,通过配置网关可以很好的解决跨域问题;如果你使用SpringBoot+Vue来写项目,可以在Controller上加@CrossOrigin来解决跨域,但是一旦你在后端配置了拦截器(比如通过HandlerInterceptor配置登录拦截器),那么此时再解......
  • C++ 令人无语/好用的语法合集
    此贴用来总结一些傻逼C++语法,或者坑了我很久的写法。1、(坑)重载>,<,==时,千万不要使用pair为基的typedef!!!!!!pii的max不受你的重载影响,它自己有自己的max,然后typedef和define是相同的,基本可以看做直接替换,不会对作用域/命名做区分。2、(坑)lower_bound(..,..,{x......
  • 好用的工具类(长期更新)
    1、笛卡尔积工具记不得参考谁的了,原文不贴了入参结构List<List>实现importjava.util.ArrayList;importjava.util.Arrays;importjava.util.List;/***@authorzionchen*@date2023/9/2511:39*/publicclassDescartesUtil{/***n个list元素笛卡......
  • 盘点几款好用的测试工具
    俗话说,工欲善其事必先利其器。要做出高效的测试当然离不开工具,有了工具如鱼得水。下面介绍几款好用的软件测试常用的工具:1.Loadrunner——性能测试工具:是一种预测系统行为和性能的[负载]测试工具。通过模拟上千万用户实施并发负载及实时性能监测的方式来确认和查找问题,LoadRunn......
  • WinRT: 可能是 Windows 上最好用的 Native ABI 和远程调用方案
    前言Windows自从很久以来就有一个叫做COM的NativeABI。这是一套面向对象的ABI,在此之上Windows基于COMABI暴露了各种各样的API,例如ManagementAPI、ShellAPI和DirectXAPI就是典型。COM自然不仅局限于进程内调用,跨进程的RPC调用也是不在话下。但无论如何,COM......
  • 推荐一款好用的Web 画布编辑器
    Polotno是一款现代而强大的Web画布编辑器,旨在为用户提供直观、灵活且可定制的图形设计和编辑工具。无论您是专业设计师、开发者,还是初学者,Polotno提供了丰富的功能和用户友好的界面,使您能够轻松创建各种图形内容。这篇我们来介绍kooboo中的Polotnoweb设计器. 主要特点:(1......
  • selenium执行js与浏览器操作
    执行js前置准备importtimefromseleniumimportwebdriverfromselenium.webdriver.edge.serviceimportServiceser=Service()ser.path=r'D:\xxx\chromedriver.exe'bro=webdriver.Chrome(service=ser)bro.get("https://www.baidu.com")#隐士......
  • selenium自动登录cnblogs案例
    代码如下:importjsonimporttimefromseleniumimportwebdriverfromselenium.webdriver.common.byimportByfromselenium.webdriver.edge.serviceimportServicefromselenium.webdriver.chrome.optionsimportOptionsser=Service()ser.path=r'D:\驱动路径......
  • selenium设置无头浏览器
    使用场景:如果我们只需要获取执行后的数据结果,而不需要打开浏览器,就用得上无头浏览器设置方式:额外添加以下代码:fromselenium.webdriver.chrome.optionsimportOptionsoptions=Options()options.add_argument('blink-settings=imagesEnabled=false')#不加载图片,......