首页 > 编程语言 >Python Selenium 各浏览器驱动下载与配置使用(详细流程)

Python Selenium 各浏览器驱动下载与配置使用(详细流程)

时间:2024-12-08 09:02:16浏览次数:6  
标签:webdriver 浏览器 Python Selenium driver Chrome 驱动 options

1、安装

pip install selenium

2、浏览器驱动下载

Chrome(google)浏览器驱动
  1. 下载地址http://chromedriver.storage.googleapis.com/index.html 或 https://sites.google.com/a/chromium.org/chromedriver/home
    下载地址http://chromedriver.storage.googleapis.com/index.html 或 https://sites.google.com/a/chromium.org/chromedriver/home

  2. 下载地址 129 130 等版本Chrome for Testing availability

Chrome浏览器驱动(chromedriver )最新版
Firefox浏览器驱动(geckodriver)
Edge浏览器驱动(MicrosoftWebDriver)
IE浏览器驱动(IEDriverServer)
Opera浏览器驱动(operadriver)
PhantomJS浏览器驱动(phantomjs),注意:这个无界面浏览器驱动已经不维护了,不推荐使用,selenium 后续版本也不用支持了。

3、下载浏览器驱动(webdriver)以谷歌浏览器为例

      根据自己的操作系统下载相对应的驱动,webdriver 需要和对应的浏览器版本以及 selenium 版本对应。
      例如当前电脑 Chrome 版本为 版本 131.0.6778.109(正式版本) (arm64),重点只需要看 131.0 后面的小版本号不需要管,打开 Chrome浏览器驱动(chromedriver ) 找到 131.0 开头的下载就行,选这个开头最新的那个。

        安装路径下载驱动后解压出来得到驱动可执行文件,不要运行,放到指定目录:

  • Windows:复制 webdriver 到 Python 安装路径的根目录下即可。
  • Mac:复制 webdriver 到 /usr/local/bin 或 /usr/bin 目录下,看有哪个目录。

        如果实在不清楚放哪里,但是想使用,那就随便找个文件夹一丢,通过自定义路径导入使用就行,比如项目根目录,直接通过路径访问驱动使用。

如下图我放入的位置

如有需要可以配置环境变量

4、驱动使用

  • 验证浏览器驱动是否正常使用,确保 python 环境正常,selenium 包已经安装。
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from time import sleep

# 根据不同操作系统设置Chrome浏览器驱动路径,示例中仅给出了相对简单的示意,实际中可以根据需求更灵活判断
import platform
system = platform.system()
if system == "Windows":
    driver_path = 'chromedriver.exe'
elif system == "Darwin":  # Mac系统
    driver_path = 'chromedriver'
else:
    raise ValueError("不支持的操作系统")

# Chrome浏览器配置选项,添加不自动关闭浏览器的实验性选项
chrome_options = webdriver.ChromeOptions()
chrome_options.add_experimental_option('detach', True)

# 创建Service对象,用于传递给Chrome浏览器驱动
service = Service(driver_path)

# 创建Chrome浏览器驱动对象
driver = webdriver.Chrome(service=service, options=chrome_options)

# 如果要使用Firefox浏览器,取消下面这行注释即可
# driver = webdriver.Firefox()
# 如果要使用Edge浏览器,取消下面这行注释即可
# driver = webdriver.Edge()
# 如果要使用Internet Explorer浏览器,取消下面这行注释即可
# driver = webdriver.Ie()
# 如果要使用Opera浏览器,取消下面这行注释即可
# driver = webdriver.Opera()
# 如果要使用PhantomJS浏览器(注意它已停止维护,现在很少使用了),取消下面这行注释即可
# driver = webdriver.PhantomJS()

# 打开指定网址
driver.get('https://www.baidu.com')
# 休眠5秒
sleep(5)
# 关闭浏览器驱动对象
driver.quit()

5 、无头模式替换

  1. Chrome 无头模式
    基本概念:无头模式是指浏览器在运行时没有可见的用户界面。在这种模式下,浏览器可以在后台执行各种任务,如网页抓取、自动化测试等,而不会弹出浏览器窗口,节省系统资源并提高效率。
    代码实现:首先需要导入selenium库和相关模块,如下:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
  • 然后设置ChromeOptions来启用无头模式:
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
  • 接着,设置Chrome浏览器驱动路径(这里假设是在 Windows 系统下,路径为chromedriver.exe,你需要根据实际情况修改),并创建Service对象:
driver_path = 'chromedriver.exe'
service = Service(driver_path)
  • 最后,创建Chrome浏览器驱动对象并使用:
driver = webdriver.Chrome(service = service, options = chrome_options)
driver.get('https://www.baidu.com')
print(driver.page_source)
driver.quit()
  • 在上述代码中,--headless参数用于开启无头模式。通过driver.get方法访问网页后,可以使用driver.page_source获取网页的源代码,用于后续的分析,比如网页抓取等操作。
  1. Firefox 无头模式
    • 基本概念:同样是让 Firefox 浏览器在没有图形界面的情况下运行,适用于自动化任务和不需要可视化界面的场景。
    • 代码实现
      • 导入相关库:
from selenium import webdriver
from selenium.webdriver.firefox.service import Service
  • 设置FirefoxOptions来开启无头模式:
firefox_options = webdriver.FirefoxOptions()
firefox_options.add_argument('-headless')
  • 设置Firefox浏览器驱动路径(假设是geckodriver.exe,根据实际情况修改),并创建Service对象:
driver_path = 'geckodriver.exe'
service = Service(driver_path)
  • 创建Firefox浏览器驱动对象并使用:
driver = webdriver.Firefox(service = service, options = firefox_options)
driver.get('https://www.baidu.com')
print(driver.page_source)
driver.quit()
  • 在 Firefox 中,-headless参数开启无头模式。和 Chrome 无头模式类似,通过driver.get方法访问网页后,可以获取网页源代码进行后续操作。

使用无头模式时的注意事项:

  • 性能优化:虽然无头模式可以节省资源,但在大量并发请求等情况下,仍需要合理配置资源,如设置合适的请求频率,避免给服务器造成过大压力或被目标网站视为恶意爬虫而封禁。
  • 兼容性:部分网站可能会对无头浏览器进行检测并限制访问,这种情况下可能需要采取一些反检测措施,如设置合适的用户代理(User - Agent)来模拟正常浏览器访问。

标签:webdriver,浏览器,Python,Selenium,driver,Chrome,驱动,options
From: https://blog.csdn.net/NiJiMingCheng/article/details/144231155

相关文章

  • python: Multi Document Interface (MDI) using PyQt6
     #encoding:utf-8#版权所有2024涂聚文有限公司#许可信息查看:言語成了邀功盡責的功臣,還需要行爲每日來值班嗎#描述:pipinstallpyqt6#Author:geovindu,GeovinDu涂聚文.#IDE:PyCharm2023.1python3.11#os:windows10#database:my......
  • 数据分析常用的特征选择方法及其Python实现
    数据分析常用的特征选择方法及其Python实现1、概述特征选择是机器学习工作流中的一个重要步骤,是为了在原始特征集中选择最有信息量的特征,以提高模型的性能、减少过拟合风险,并加速训练过程。scikit-learn库提供了多种特征选择方法,主要有:特征重要性(分类器模型:xgboost、梯......
  • 聪明办法学Python Task05&&Task06
    列表详解追加append只会在列表的末尾添加值l=[1,2,3]l.append(4)print(l)显示1,2,3,4插入insertl.insert(索引,插入的值)extend(字符串,字典)删除*pop(可指定,写索引,默认最后一个)*remove(写元素)count(统计出现次数)index(显示元素索引)clear(清空列表)revers......
  • Python 爬虫验证码处理方案
    Python爬虫验证码处理方案简介嗨,大家好,我是太上问情,一个学习爬虫好几年都还没有真正入门的小趴菜。本文记录本人Python爬虫学习过程中,验证码处理的各种解决方案,欢迎大家指正。本人计划在本文完成如下验证码的处理,目前一个都没有完成,希望我能很快完成!数字验证码字......
  • Python 中的 __slots__ 属性有什么作用?
    __slots__是Python类中的一种特殊属性,它允许你显式地声明一个类的实例可以拥有的属性。这不仅有助于节省内存,还能提高属性访问的速度,并且防止动态添加不属于设计的属性。在大型项目或者对性能敏感的应用程序中,正确使用__slots__可以带来显著的好处。__slots__ 的作用......
  • Python知识分享第二十一天-装饰器&正则
    进阶语法上下文管理器 概述 一个类只要实现了 __enter__() __exit__() 它就是上下文管理器类它的对象称之为上下文管理器对象 with语法解释 格式 with上下文管理器对象:代码块 特点 当with的代码执行完毕后会自动释放上下文管理器对象 ......
  • Python 中的继承机制是什么样的?
    Python的继承机制允许一个类(子类)继承另一个类(父类或基类)的属性和方法。通过继承,可以实现代码复用,同时也能让代码结构更加清晰、易于维护。Python支持单继承和多继承,并且有丰富的特性来处理这些关系。继承的基本概念单继承:一个子类只继承自一个父类。多继承:一个子类可以从多......
  • 您与该网站的连接不是私密连接,存在安全隐患,解决浏览器提示连接不安全的问题
    如果你只是普通访客,不用理睬,忽略即可。如果你是网站站上,请检查网站证书部署。当浏览器提示“您与该网站的连接不是私密连接,存在安全隐患”时,说明该网站的SSL证书存在问题,导致数据传输不安全。以下是一些解决方法:检查证书有效期:确认证书是否已过期。如果已过期,需要更新证......
  • 【python副业项目】第一篇:什么值得买多用户自动爆料工具
    今天分享一个自己长期在使用的工具,该工具旨在自动化处理商品爆料过程,通过解决用户登录、检查是否可以爆料以及提交爆料信息到“什么值得买”网站。历史爆料任务:可设置参数示意图:爆料过程日志:设计文档1.概述本系统为“什么值得买”(SMZDM)的自动爆料工具,允许用户通......
  • ESP32S3开发板连INMP441麦克风,并用MicroPython控制处理语音信号存为pcm格式文件
    本次实践的目标是:ESP32S3开发板连INMP441麦克风,并用MicroPython控制处理语音信号存为pcm格式文件。参考学习例子:使用ESP32与INMP441麦克风模块实现音频传输_esp32inmp441-CSDN博客 xiao_esp32s3板的说明:麦克风使用|SeeedStudioWiki 咨询AI的例子:https://skywalk.blog......