Selenium自动化程序被检测为爬虫，怎么屏蔽和绕过

时间：2023-06-29 10:35:43浏览次数：44

标签：浏览器 chrome selenium Selenium 爬虫 9222 -- 屏蔽 options

先打开浏览器，再链接操作

1、打开浏览器时添加以下参数：

--remote-debugging-port=9222 --user-data-dir="C:\\selenium\\ChromeProfile"

2、selenium中设置浏览器选项，通过上面设置的 9222端口连接浏览器：

from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:9222")
driver = webdriver.Chrome(options=chrome_options)

3、通过 subprocess 运行浏览器

当然，做自动化程序一般不会手工点击图标来打开浏览器，我们可以用命令行启动浏览器，然后再用 selenium 连接。

import subprocess
cmd = '"C:\\Program Files (x86)\\Google\\Chrome\\Application\\chrome.exe" ' \\
'--remote-debugging-port=9222 ' \\
'--user-data-dir="C:\\selenium\\ChromeProfile"'

subprocess.run(cmd)

标签：浏览器,chrome,selenium,Selenium,爬虫,9222,--,屏蔽,options
From： https://www.cnblogs.com/orange-007/p/17513357.html

python使用隧道代理做爬虫模版
以下是一个使用隧道代理进行爬虫的Python模板：```pythonimportrequests#设置代理服务器proxy_host="your_proxy_host"proxy_port="your_proxy_port"proxy_username="your_proxy_username"proxy_password="your_proxy_password"#设置目标网址target_url=......
css屏蔽图片长按选中下载
在移动端开发中，我们通常不希望页面的图片被长安选中可下载，会禁用图片选中事件，这时，css不能使用通配符全局设置 pointer-events:none; 否则会把所有点击事件禁用。解决方案img{box-sizing:border-box;-moz-user-select:none;-webkit-user-select:none;-ms-us......
如何看待低级爬虫与高级爬虫？
爬虫之所以分为高级和低级，主要是基于其功能、复杂性和灵活性的差异。根据我总结大概有下面几点原因：功能和复杂性：高级爬虫通常提供更多功能和扩展性，包括处理复杂页面结构、模拟用户操作、解析和清洗数据等。它们解决了开发者在处理复杂任务时遇到的挑战。低级爬虫则更简单，包含基础......
WEB自动化-selenium-定位方式
定位元素的时候可以修改JS样式来确定定位的元素是否正确#通过selenium修改JS属性，用来确定我定位的元素是什么？driver.execute_script("arguments[0].setAttribute('style',arguments[1]);",el,"border:2pxsolidgreen;"#边框，green绿色) ......
ChatGPT从入门到精通，一站式掌握办公自动化/爬虫/数据分析和可视
课程名称适应人群ChatGPT从入门到精通，一站式掌握办公自动化/爬虫/数据分析和可视全面AI时代就在转角，道路已经铺好了“局外人”or“先行者”就在此刻等你决定1、对ChatGPT感兴趣并希望有人手把手教学的新手2、希望了解GPT各类应用抓住未来风口3、希望提升竞争能力，不被AI淘汰的职场人......
Selenium基础：cookie javascript调用屏幕截图 09
1、cookie操作绕过登录get_cookies()：以字典形式返回cookie所有信息get_cookies(name)：返回cookie字典中key为name的值add_cookie(cookie_dict)：手动添加cookie。cookie_dict为字典数据格式，cookie_dict中必须有name和value值delete_cookie(name)：删除cookie字典中key为name的......
selenium中使用CSS 定位
CSS是一种语言，用来描述HTML和XML文档的表现。CSS使用选择器为页面元素绑定属性。CSS选择器可以较为灵活地选择控件的任意属性，一般情况下，CSS定位速度比XPath定位速度快通过CSSSelector选择单个元素的方法是find_element(By.CSS_SELECTOR,CSSSelector参数)......
如何利用python做爬虫？
Python爬虫在许多情况下是非常有用的，爬虫可以帮助自动化地从互联网上获取大量数据。这些数据可以是产品信息、新闻文章、社交媒体内容、股票数据等通过爬虫可以减少人工收集和整理数据的工作量，提高效率。在软件开发中，可以使用爬虫来进行自动化的功能测试、性能测试或页面链接检查......
selenium根据link、partial link选择元素
link定位By.LINK_TEXT方法是通过元素标签对之间的文字信息来定位元素的，它专门用来定位文本链接.百度输入框上面的几个文字链接的代码如下。<aclass="mnav"name="tj_trnews"href="http://news.baidu.com">新闻</a><aclass="mnav"name="tj_trhao123"href=&......
selenium根据class属性、tag名选择元素
根据class属性选择元素元素也有类型，class属性就用来标志着元素类型若网页html内容如下：<body><divclass="plant"><span>土豆</span></div><divclass="plant"><span>洋葱</span></div>......

Selenium自动化程序被检测为爬虫，怎么屏蔽和绕过

3、通过 subprocess 运行浏览器

相关文章

赞助商

阅读排行