爬虫 202107【JavaPub版】

时间：2023-05-08 11:04:06浏览次数：43

标签：__ webdriver return JavaPub 爬虫 window 202107 document true

写于20210711 17:10 北京朝阳区

@[toc]

方法:

首先下载 mitproxy，pip安装方法：

> pip install mitmproxy

基本使用方法：

给本机设置代理ip 127.0.0.1端口8001（为了让所有流量走mitmproxy）具体方法请百度。
启动mitmproxy。

windows：

> mitmdump -p 8001

Linux：

> mitmproxy -p 8001

2.修改chromedriver源码；

3.使用mitmproxy或fiddler做代码注入；

4.使用其他方法拦截发送回浏览器指纹的XHR

runBotDetection = function () {
    var documentDetectionKeys = [
        "__webdriver_evaluate",
        "__selenium_evaluate",
        "__webdriver_script_function",
        "__webdriver_script_func",
        "__webdriver_script_fn",
        "__fxdriver_evaluate",
        "__driver_unwrapped",
        "__webdriver_unwrapped",
        "__driver_evaluate",
        "__selenium_unwrapped",
        "__fxdriver_unwrapped",
    ];

    var windowDetectionKeys = [
        "_phantom",
        "__nightmare",
        "_selenium",
        "callPhantom",
        "callSelenium",
        "_Selenium_IDE_Recorder",
    ];

    for (const windowDetectionKey in windowDetectionKeys) {
        const windowDetectionKeyValue = windowDetectionKeys[windowDetectionKey];
        if (window[windowDetectionKeyValue]) {
            return true;
        }
    };
    for (const documentDetectionKey in documentDetectionKeys) {
        const documentDetectionKeyValue = documentDetectionKeys[documentDetectionKey];
        if (window['document'][documentDetectionKeyValue]) {
            return true;
        }
    };

    for (const documentKey in window['document']) {
        if (documentKey.match(/\$[a-z]dc_/) && window['document'][documentKey]['cache_']) {
            return true;
        }
    }

    if (window['external'] && window['external'].toString() && (window['external'].toString()['indexOf']('Sequentum') != -1)) return true;

    if (window['document']['documentElement']['getAttribute']('selenium')) return true;
    if (window['document']['documentElement']['getAttribute']('webdriver')) return true;
    if (window['document']['documentElement']['getAttribute']('driver')) return true;

    return false;
};

供参考：

https://www.zhihu.com/question/50738719/answer/545145218
https://www.icode9.com/content-4-131489.html
参考修改指纹：https://mp.weixin.qq.com/s?__biz=Mzg5OTU3NjczMQ==&mid=2247510375&idx=2&sn=5233386f674e9dc8b68c5760d8c6bc42&source=41#wechat_redirect
工具网站：https://bot.sannysoft.com/

探讨and了解：look

更多数据采集思路，欢迎公众号【JavaPub】

爬虫 202107【JavaPub版】_mitmproxy

标签：__,webdriver,return,JavaPub,爬虫,window,202107,document,true
From： https://blog.51cto.com/wangshiyu/6253150

【JavaPub版】MarkDown 写简历-建议收藏-早晚用得上
MarkDown原文档和加照片又到了金三银四的季节，MarkDown写简历真不错，附MarkDown文本##联系方式----手机：-Email：-微信：##个人信息----姓名：-学历：-出生日期：19**.08-期望职位：Java研发工程师/大数据工程师-期望城市：-工作状态：##教育背景---##社会工作......
Python爬虫设置代理
在Python中使用代理进行爬虫操作可以有效地隐藏用户的真实IP地址，防止被封禁或者限制访问。下面是设置代理的示例代码：importrequestsproxies={"http":"http://127.0.0.1:8888","https":"http://127.0.0.1:8888",}response=requests.get('ExampleDomain�......
scrapy爬虫标准流程
Scrapy爬虫的标准流程一般包括以下几个步骤：1、明确需求和目标网站的结构，确定需要爬取的数据以及爬取规则。2、创建一个Scrapy项目，使用命令行工具创建一个新的Scrapy项目。3、定义数据模型和item，即确定要爬取的数据结构。4、编写爬虫类，使用Scrapy的Spider类编写爬虫程序，根据需......
安装爬虫框架记录（第三方库）
安装指令：python-mpipinstall.whl文件安装Scrapy3-1.0.1，需要的依赖库如下：zope.interface>=4.4.2constantly>=15.1incremental>=21.3.0Automat>=0.8.0six-1.16.0hyperlink>=17.1.1PyHamcrest!=1.10.0,>=1.9.0Twisted>=13.1.0（最后）安装pyOpenSSL-23.1.1......
爬虫JS逆向其实挺简单
JS逆向爬虫是指通过分析网站的JavaScript代码，模拟浏览器行为，从而获取网站数据的一种方式。下面是一个JS逆向爬虫的案例：1、分析目标网站的JavaScript代码，找到数据请求的URL和参数。2、使用Python的Requests库发送模拟的HTTP请求，携带必要的参数。3、解析返回的数据，提取需要的信息......
Python多线程爬虫简单模板
多线程爬虫的流程可以大致分为：（1）获取种子URL：从初始URL中抓取起始页面，解析其中的URL，并将这些URL添加到未访问的URL队列中；（2）解析下载的网页：从URL队列中取出一个URL，下载其内容，解析其中的链接，并把新的链接放入未访问的URL队列中；（3）存储爬取的数据：从URL队列中取出未访问的URL，把其中的内......
认识网页结构和爬虫
网页一般由三部分组成，分别是HTML（超文本标记语言）、CSS（层叠样式表）和JScript（活动脚本语言）HTMLHTML是整个网页的结构，相当于整个网站的框架。带“＜”、“＞”符号的都是属于HTML的标签，并且标签都是成对出现的。常见的标签如下：<html>..</html>表示标记中间的元素是网页<body......
python异步爬虫
异步爬虫基础知识阻塞阻塞状态指程序未得到所需计算资源时被挂起的状态。程序在等待某个操作完成期间，自身无法继续干别的事情，则该程序在操作上是阻塞的。常见的阻塞形式有：网络I/O阻塞、磁盘I/O阻塞、用户输入阻塞等。阻塞是无处不在的，包括在CPU切换上下文时，所有进程都......
爬虫使用http代理
1、每个过程从接口中随机取出IP列表，重复使用。失败后，调用API获取。一般逻辑如下:（1）每个过程，从接口中随机取回部分ip，反复尝试ip目录以获取数据；（2）如果访问成功，继续抓住下一个。（3）如果失败，从界面取一批IP，继续尝试。方案缺点:每个IP都有截止日期。如果提取100个，使用第20个，剩下的大部分可能......
利用Python爬虫采集1688商品详情数据 +商品列表数据+商品API接口（支持全网）
一、如何通过手动方式查看1688商品详情页面的数据1.1688商品详情API接口（item_get-获得1688商品详情接口），1688API接口代码对接可以获取到宝贝ID，宝贝标题，价格，掌柜名称，库存，最小购买数，宝贝链接，宝贝图片，品牌名称，商品详情，详情图片等页面上有的数据均可以获取到，手动方式如下：例......

爬虫 202107【JavaPub版】

方法:

供参考：

探讨and了解：look

相关文章

赞助商

阅读排行