首页 > 其他分享 >某行动态cookie反爬虫分析

某行动态cookie反爬虫分析

时间:2023-07-30 22:12:21浏览次数:36  
标签:function return gR 爬虫 gF cookie var 动态 debugger

某行动态cookie反爬虫分析


1. 预览

  • 反爬网址(base64): aHR0cDovL3d3dy5wYmMuZ292LmNu

  • 反爬截图:

    • 需要先加载运行js代码,可能是对环境进行检测,反调试之类的

    image-20230730194904202

    • 无限debugger

      image-20230730200545134

  • 处理办法

    • 网上大部分人说的都是添加cookie来解决。
      • 那个noscript标签仅仅是用于提示用户的,在不支持js的浏览器展示。
      • 本网站是动态ck,每一次的cookie都是上一次成功请求所返回的,但是python模拟请求时,第一次请求就是上图所示的页面,于是第一次成功的请求就是解决该问题的关键,
        • 1.你可以使用上一次浏览器成功请求返回的ck添加到python里发起请求,当然这比较笨拙,哈哈
        • 2.使用python完成第一次成功的请求
    • 当然,我们选择使用方法2来实现呀,优雅一点嘛

2.调试

  • 无限debugger怎么去掉?
    • 右键,不在这里暂停,是可以,但有时得小心,不暂停了出现无限循环带来的卡顿
    • 这里就简单的使用不在这暂停

3.扣代码环节

  • 1.扣逻辑,扣需要的代码

    image-20230730202532291从上图可以看出,第一次请求执行上面返回的js代码和session_id, wzws_cidjs代码里有逻辑写了,发起第二个验证请求,验证成功的话,返回302状态码,返回新的wzws_cid,然后带着正确的wzws_cidsessionid等参数进行跳转主页,才能成功请求。

    • 我们看一下,第一次返回的js代码:

    image-20230730203359023

    • 这些个在浏览器调试就会发现都是字符串加密之类的,而且整个代码进行了ob混淆,为了便于调试,使用反混淆工具,反混淆下:

    • image-20230730204008534

    • 格式前后的j:

      • `function u(k){function gR(v,A){return gE(A- -'0x92',v);}var P={'oQHKx':function(C,x,d){return A['cirRP'](C,x,d);},'LJXui':A[gD('93LV',-'0x127')],'JITOI':A['FJQMp'],'ktFbX':function(C,d){function gm(v,A){return Z(A- -'0x2ef',v);}return A[gm('0x40',-'0x3d')](C,d);},'nzZBi':A[gD('kdha',-'0xa7')]};function gD(v,A){return gY(A- -'0x5c',v);}function gO(v,A){return gE(v- -'0x3b6',A);}function gF(v,A){return ge(v,A-'0x48f');}if(A[gR('0x561','0x5b1')](A[gD('DT[N',-'0xab')],A[gF('M1Bv','0x635')])){var x=P['oQHKx'](P,C,x);P['oQHKx'](d,N,x);}else{if(A[gR('0x4d8','0x535')](typeof k,A[gR('0x4c5','0x540')]))return function(x){}['const'+gR('0x5d7','0x579')+'r'](A[gR('0x4e4','0x4d4')])[gR('0x539','0x4ee')](A[gF('Ux5v','0x657')]);else{if(A[gO('0x27e','0x218')](A[gF('UbQE','0x621')],A[gF('%4Ja','0x6ad')])){var d=C?function(){function gL(v,A){return gD(A,v-'0x69f');}if(d){var Y=J[gL('0x523','BpO(')](n,arguments);return z=null,Y;}}:function(){};return i=![],d;}else{if(A['OFxOf'](A[gF('Ms1O','0x5be')]('',A['yUkFe'](k,k))[A[gR('0x582','0x5bc')]],-0x1cbf+0x33*-0x8b+-0x1*-0x3871)||A[gR('0x590','0x509')](A[gD('xrrg',-'0xe2')](k,0x2189+-0x7*0x4dd+-0x4b*-0x2),0x42c*-0x8+-0x3*-0x66+0x202e))(function(){return!![];}[gR('0x5d4','0x5ba')+'ructo'+'r'](A['ChrtP'](A[gO('0x2c3','0x2af')],A[gR('0x556','0x51d')]))[gD('0sv]',-'0x6c')](A['bHBdS']));else{if(A[gR('0x585','0x500')](A[gR('0x4b1','0x50e')],A['zesRv'])){var N=A['RZobL'][gF('z6h!','0x6d4')]('|'),K=0x9a1+0x53*0x55+-0x2530;while(!![]){switch(N[K++]){case'0':var i=new K(J);continue;case'1':var J=n[gF('m7@A','0x62f')+'h'];continue;case'2':return z[gO('0x277','0x1e6')+'e'](i['buffe'+'r']);case'3':var n=A['MBcSp'](d,N);continue;case'4':for(var z=0x31f+-0x2e9+-0x36;A['HWTiM'](z,J);z++){i[z]=n['charC'+gF('xrrg','0x5b5')](z);}continue;case'5':if(!C)return x;continue;}break;}}else(function(){function gl(v,A){return gO(A-'0x1cf',v);}function gr(v,A){return gO(v-'0x3e8',A);}function gG(v,A){return gF(A,v- -'0x5bd');}function gT(v,A){return gD(v,A- -'0x80');}return P[gT('Ux5v',-'0x1e4')](P[gr('0x6b8','0x645')],P[gr('0x6b8','0x6ee')])?![]:function(K){}[gl('0x412','0x465')+gl('0x3ff','0x424')+'r'](P['LJXui'])['apply'](P[gG('0x12','*Ig5')]);}['const'+gR('0x51a','0x579')+'r'](A[gR('0x561','0x59a')](A[gR('0x67a','0x5e7')],A['HINSR']))[gO('0x1ca','0x14d')](A[gF('XuiA','0x5b1')]));}}}A[gO('0x1e8','0x238')](u,++k);}}`
        
        ``
        
      • 格式前后的j:

      • image-20230730212936815

    • 从上图中可以看出:

      • 1.进行了正则校验,V表达式,我就纳闷了,格不格式化的会返回true啊,有毒,应该用+来检测至少一个空格嘛,真是的。

      • image-20230730205538022

      • 第二个正则,p表达式,也是一样的,格式化前后我的都是++k,能能匹配到,这里他应该是想校验是否有++ k,那么也要用+号,我真服了,垃圾代码。

      • image-20230730205348294

      • 所以一定会进入else:

      • image-20230730213033609

      • 最终进入:

      • image-20230730213221828

      • ""+0/0='NaN',进入虚拟机中,执行debugger,然后继续u(++k),不断地自己调用自己,无限debugger;

      • 总结:可以看出,无论你是否格式化代码,我都会给你进入无限debugger,而debugger仅仅在打开F12时,才会起作用!也就是说和你格式化代码没有屁毛钱关系,只要打开F12就会无限debugger,大家也看出来了,两条分支,一条进入无限while循环,内存爆破,一条无限debugger,所以有意思的来了,如果你按照自己的先验主义,把下面的test校验 的感叹号删掉,你将收获内存被爆破,哈哈,有点道高一筹魔高一丈的感觉了

      • image-20230730214629041

  • 分析完了正则校验和debugger,我们书归正传,看看第二个请求里面的加密参数怎么来的,这里最简单的办法就是,直接使用它的js文件即可,没必要自己去扣了,毕竟解混淆之后的代码实在是太清晰了,如下图所示,生成了所需要的地址。

  • image-20230730214942380

  • 对该地址发起请求后,校验成功后,拿着返回的wzws_cidsessionid即可正确进行数据获取了

3.验证

image-20230730215644619

标签:function,return,gR,爬虫,gF,cookie,var,动态,debugger
From: https://www.cnblogs.com/steed4ever/p/17592175.html

相关文章

  • python数据分析师入门-学习笔记(爬虫-序言)
    爬虫到底是什么概括爬虫是批量化自动获取既有数据批量化自动既有数据通常获取既有数据特殊批量注册一批账号批量去领取优惠券批量自动下单购物自动做任务(签到)实际应用企业中:竞品调研数据采集办公自动化个人:比如看小说有的网站收费有的网站不收费......
  • python爬虫基础
    前言都说爬虫简介1、首先我们需要知道爬虫是什么?爬虫实际上是一段程序,我们可以通过这段程序从互联网上获取到我们想要的数据,这里还有另外一种解释是我们使用程序来模拟浏览器向服务器发送请求,来获取响应信息2、爬虫的核心:(1)、爬取网页:爬取整个网页,包含网页中的所有内容(2)、解......
  • 爬虫:动态渲染网页
    #coding:utf-8importrequestsimportjsonurl='https://www.toutiao.com/search/suggest/hot_words/?_signature=_02B4Z6wo00101KzVDhQAAIDALNf0VpZzQrys8QqAAE.4WWTkOuz1HeMqTrJvEm2yLbAnK-d4x0dPsUEaw146LG7XljEYM0cn9I0bjErwG0PJkn2Kj0dDPMvau3aciANleL.uixoTY......
  • python数据分析师入门-学习笔记(第九节 爬虫的核心流程)
    学习链接:Python数据分析师入门爬虫的核心流程明确目标汽车成交量汽车评论信息汽车提车分享信息搜寻哪些网站或APP有我们要的资源汽车之家懂车帝易车分析数据所在位置,加载方式直接加载的额外的网络请求数据获取使用代码驱动APP或浏览器自己分析请求......
  • 爬虫、正则
          ......
  • python数据分析师入门-学习笔记(第八节 python爬虫的准备工作)
    学习链接:Python数据分析师入门python爬虫的准备工作一台电脑尽量windows电脑语言环境编程语言爬虫并不是python独有Python开发环境Anaconda了解爬虫的实现和原理用代码去控制终端用代码直接发送请求CS(客户端服务器)/BS(浏览器服务器)模型CS/BS浏览......
  • python数据分析师入门-学习笔记(第七节 爬虫如何搞钱)
    学习链接:Python数据分析师入门爬虫如何搞钱入职企业,找一份爬虫工程师的岗位抢购最火的茅台电商平台秒杀羊毛出自猪身上看小说(投放广告)引流比价购物助手点赞、收藏、刷粉丝、刷评论、刷播放量核心资源的整合......
  • python数据分析师入门-学习笔记(第六节 爬虫合法吗)
    学习链接:Python数据分析师入门爬虫合法吗机器人协议robots.txt协议中规定了哪些内容可以获取,哪些内容不能获取通常协议中会标明哪些不让爬baidu.com/robots.txttaobao.com/robots.txt君子协议未标注是否可以爬取历史上哪些工程师被抓有一家公司被一锅端工程......
  • python数据分析师入门-学习笔记(第五节 爬虫分类)
    学习链接:Python数据分析师入门爬虫分类1.聚焦爬虫-完成某一项特定数据的采集-百分之九十的爬虫2.通用爬虫-什么内容都采集,存储下来-搜索引擎3.增量爬虫-既可以使用聚焦爬虫,也可以使用通用爬虫-当内容变化时,可以爬取变化的内容4.暗网爬虫-深网爬......
  • 9_Spring_JDK动态代理
    9_Spring_JDK动态代理代理模式是通过代理对象访问目标对象,这样可以在目标对象基础上增强额外的功能,如添加权限,访问控制和审计等功能。房产中介代替业主卖房静态代理静态代理中代理类与被代理类都需要实现同一个接口,这就说明我们的一个静态代理类只能代理一个类,并且还要事先......