DrissionPage过5秒盾：反CloudFlare反爬

时间：2024-09-09 13:53:46浏览次数：21

标签：co get url 反爬秒盾 537.36 DrissionPage CloudFlare page

5秒盾实例

偶尔有用的解决方式：

curl_cffi可以实现一些简单的反5秒盾。

pip install curl_cffi

from curl_cffi import requests as cffi_requests
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
}
url = ""
res = cffi_requests.get(url, impersonate='chrome110', timeout=10)
print(res.status_code, res.cookies)

无效的网站会返回 403 <Cookies[]>。

DrissionPage反反爬

这里采用DrissionPage自动化来反反爬。

pip install DrissionPage

安装后，编写代码：

from DrissionPage import ChromiumPage
from DrissionPage import ChromiumOptions
co = ChromiumOptions()
page = ChromiumPage(co)
url = ""
page.get(url)
page.wait(5)
print(page.user_agent)
page.get_screenshot(path=r"./test_browser_page.png", full_page=True)
page.quit()

没有开启无头模式时，通过保存截图可以确认正常绕开了5秒盾。如果只需要本地运行，到这里就够了。

但是本任务需要部署到没有GUI的linux服务器，也就意味着浏览器必须是无头模式。尝试修改代码：

from DrissionPage import ChromiumPage
from DrissionPage import ChromiumOptions
co = ChromiumOptions()
co.set_argument('--headless', True) # 无头模式
page = ChromiumPage(co)
url = ""
page.get(url)
page.wait(5)
print(page.user_agent)
page.get_screenshot(path=r"./test_browser_page.png", full_page=True)
page.quit()

结果一看截图，发现又被CloudFlare给拦截了。原来问题出在UA上：

print(page.user_agent)

打印结果是：

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) HeadlessChrome/128.0.0.0 Safari/537.36

可以发现里面有`HeadlessChrome`这一串，导致被CloudFlare给拦截了。因此只需要设置一下UA就好了！部署到服务器上后，中间一直有如下的报错：

DrissionPage.errors.BrowserConnectError:
127.0.0.1:18364浏览器无法链接。
请确认：
1、该端口为浏览器
2、已添加'--remote-debugging-port=18364'启动项
3、用户文件夹没有和已打开的浏览器冲突
4、如为无界面系统，请添加'--headless=new'参数
5、如果是Linux系统，可能还要添加'--no-sandbox'启动参数
可使用ChromiumOptions设置端口和用户文件夹路径。

修改后代码如下：


from DrissionPage import ChromiumPage
from DrissionPage import ChromiumOptions
# 创建页面对象
co = ChromiumOptions().auto_port()  # 指定程序每次使用空闲的端口和临时用户文件夹创建浏览器
co.headless(True)   # 无头模式
co.set_argument('--no-sandbox')  # 无沙盒模式
co.set_argument('--headless=new')  # 无界面系统添加
co.set_paths(browser_path="/opt/google/chrome/google-chrome")  # 设置浏览器路径
co.set_argument('--disable-gpu')    # 禁用gpu，提高加载速度
co.set_user_agent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36") 
page = ChromiumPage(co)
url = ""
page.get(url)
page.wait(5)
print(page.user_agent)
page.get_screenshot(path=r"./test_browser_page.png", full_page=True)
with open(r"./test_browser.html", "w", encoding="utf-8") as f:
    f.write(page.html)
page.quit()

设置UA后从截图来看，真的做到了绕开这个5秒盾。其中set_paths用来在服务器上指明chrome路径，本地部署可忽略（？）。

参考：爬虫自动化之drissionpage在linux无头模式下过五秒盾Cloudflare

小插曲：

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"

中间设置成这个UA也不行，CloudFlare好像也不接受过老版本的浏览器（这里是91.0所以失败了）。

标签：co,get,url,反爬,秒盾,537.36,DrissionPage,CloudFlare,page
From： https://blog.csdn.net/m0_55893050/article/details/141957598

腾讯云域名托管到 cloudflare
cloudflarehttps://dash.cloudflare.com/腾讯云域名列表https://console.cloud.tencent.com/domain/all-domain/all先进入腾讯云列表，点击自己已购买的域名点击修改；https://console.cloud.tencent.com/domain/all-domain/all修改为cloudflare提供的，如下：进入https://da......
使用cloudflare的免费workers建立一个esp32cam监控的方案研究
一开始我是研究了websocketshttps://developers.cloudflare.com/workers/examples/websockets/esp32cam--workers--手机浏览器其中workers的逻辑是，把esp32cam的图片数据保存在一个内存变量中，然后在手机浏览器请求的时候，把这个图片转发出去。如果您的应用程序需要在多个Web......
Cloudflare Workers 每日免费限制超出流量自动关闭 - 失败模式改为失败时自动关闭
cloudflareworkers每日免费限制超出流量自动关闭-失败模式改为失败时自动关闭（阻止）位置在Workers和Pages-相应的workers-设置-函数-更改失败模式改为失败时自动关闭（阻止）这个设置，网上竟然没有人说，这么重要的事情，应该要设置，必须要设置！！注意：设置后记得从新部署......
使用 Python 和 Selenium 解决 Cloudflare 验证码
在网络自动化测试或网页数据抓取的过程中，Cloudflare验证码是许多开发者遇到的棘手问题。这一验证码设计的初衷是为了保护网站免受恶意攻击，但它也给合法的自动化操作带来了不小的挑战。那么，使用Python和Selenium，是否有办法有效应对并解决Cloudflare验证码的问题？有哪些技巧和方......
使用Cloudflare Worker搭建自己的AI绘画工具
demo:https://aidraw.foxhank.top0.前言Cloudflare公司推出了workers-ai，可以免费在Cloudflare的全球网络上运行由无服务器GPU提供支持的机器学习模型。WorkersAI可以Cloudflare网络上使用自己的代码运行机器学习模型，也就是说，只要写一个js代码，就可以免费调用cloudfl......
免费域名注册教程：可托管cloudflare，无需双向解析、了解什么是域名
前言在使用域名前，你需要知道域名的基本知识，如果你已经知道了基本的域名知识可以跳过这一段。什么是域名？通常情况下，你是通过IP地址加端口号来访问网站的。有了域名之后，你就可以通过域名来访问这个IP和端口，从而更加方便地访问你的网站。使用域名有什么好处？增强网站的SEO：一个......
利用 Cloudflare workers 反代 github
反代Github似乎会被认定为欺诈，严重的会封禁域名，不建议尝试首先绑定你的域名到cloudflare，然后创建一个Worker后写入以下代码并添加自定义域名//反代目标网站.constupstream='github.com';//反代目标网站的移动版.constupstream_mobile='github.com';//访问......
利用 Cloudflare Pages 部署免费 Telegraph 图床
TelegraphImage是一个可以作为Flickr和imgur替代品的免费图片托管服务。本教程将指导您如何通过CloudflarePages免费部署和使用TelegraphImage。项目地址https://github.com/cf-pages/Telegraph-Image部署步骤准备工作首先，确保您拥有一个Cloudflare账户，并已将......
selenium 反反爬-淘宝，美团
1.反爬有时候，我们利用Selenium自动化爬取某些网站时，极有可能会遭遇反爬。实际上，我们使用默认的方式初始化WebDriver打开一个网站，下面这段JS代码永远为true，而手动打开目标网站的话，则为：undefined#通过这段JS脚本区分是爬虫还是人工操作window.navigator.webdriver2.......
Cloudflare网址扫描器
CloudflareURLScanner（Cloudflare网址扫描器）是Cloudflare提供的一项服务，它可以帮助网站管理员和用户检测和预防恶意软件、钓鱼网站和其他网络安全威胁。这项服务通常集成在Cloudflare的安全产品中，使用场景包括但不限于：网站安全监测：自动扫描网站链接，检测是否含......

DrissionPage过5秒盾：反CloudFlare反爬

5秒盾实例

偶尔有用的解决方式：

DrissionPage反反爬

相关文章

赞助商

阅读排行