首页 > 其他分享 >爬虫逆向 - 分析思路

爬虫逆向 - 分析思路

时间:2022-12-28 15:00:31浏览次数:40  
标签:逆向 加密 爬虫 JS hook 搜索 思路 js com

背景:

网站分析思路

 

笔记1:

案例:
    1.乌海市公共资源: http://www.whggzy.com/home.html  数据加密案例
    2.福建省公共资源交易电子公共服务平台:https://ggzyfw.fujian.gov.cn/index/new  头部信息加密案例

获取爬取数据的流程:
  一 不加密:
    - 在页面中找到需要下载的数据“内蒙古自治区政府采购全流程电子化交易管理办法”
    - 打开“开发者工具”
    - 在“网络”下搜索 “内蒙古自治区政府采购全流程电子化交易管理办法”
    - 找到对应的API
  二 加密:
    - 在页面中找不到需要下载的数据
    - 拉到页面最下方看看是否有分页器
    - 在“网络”下对应的页面返回中查看返回data是否“加密”
    - 确认“启动器(启动程序)”是否混淆(乱码就是混淆)


排错:
- 接口正确性 
    请求对象的发送(查看过程)
    - 源代码下 
    - XHR/提取断点 
    - 添加断点(跳转路径:front/search/category) 
    - 刷新页面 
    - 点调用堆栈下send 跳转对应源码处 
    - 查看相关详情

速记:
    decrypt 关键字搜索时 必须为一个方法,同时,还需要有内容


工具:
    1.将curl转为你想要的语言:https://curlconverter.com/
    2.算法库:crypto-js(js算法库)
    3. FD(fiddler抓包工具)工具


今日重点:
    1.JS定位 -》 数据加密(关键字定位)(无混淆的JS)
    2.对于扣JS 的方法(找到主要的核心加密或者解密的方法或函数)

提示:搜索关键字 出现很多的JS文件 填充该接口的路径 再次搜索 找重复出现的JS 文件

作业:
    1. https://36kr.com/p/2043190896037128 数据加密(提示: 搜索关键字decrypt)
    2. https://webapi.cninfo.com.cn/#/marketData 头部参数加密(提示:搜索关键子mcode)

 

笔记2

1.跟值技巧(通过调用堆栈调试)

取值范围:
16进制: 0-9   A-F
bs64: A-Z a-z  0-9   + / = 

微信公众号平台JS算法改写
- JS调式工具:
    - 发条JS调式工具
- PyExecJs
    - 实现使用python 执行JS代码
- JS算法改写
    - 打断电
    - 代码调试时, 如果发现了相关变量的缺失, 一般给其定义成空字典即可。


示例:
    - 试客联盟
        - url: http://login.shikee.com/
        - serializeArray(): js函数的作用使用来实现序列化(对登录页面的表达式中的值进行序列化, 序列化成一个数组,
            数组元素就是表单中的数据【用户名和密码】)
        - key表示的是公钥, 公钥的生成需要用rsa_n:
            - 基于抓包工具对rsa_n 进行全局搜索

    - 空中网逆向
        - url: https://passport.kongzhong.com/
        - JS混淆:
            - 将js核心的相关代码进行变相的加密, 加密后的数据就是js混淆后的结果

        - js反混淆
            - 反混淆的线上工具(不理想)
            - 浏览器自带的反混淆工具设置(推荐)(chrome)
                - 开发者工具的source -> settings -> sources -> 第一项选中(打上对勾)
                - 进行关键字的全局搜索 -> VMxx(就是反混淆后的代码)
        - 发现了一个data['dc']不知道是什么, 后续处理:
            - 全局搜索, 直接搜索data, 结果太多不便定位
            - 抓包所有请求,一个个查看(考验耐心)
            - 搜索dc
    
    - 长房网
        -url: https://www.fang0355.com/login

 

笔记3

------------hook ------------
    1、hook的时机:
1)在控制台注入的hook,刷新网页就失效;
在网页加载第一个js的位置,第一个断点,然后在控制台手动注入hook
       (有可能注入hook的时机还是会晚一点)
2)利用FD的替换响应 注入hook 这种的时机比较靠前
3)油猴(第三方插件)--不推荐
4)new proxy(使用代理)

2、hook 主要的应用是获取session加密数据hook函数模板:
(function () {
    var info = "";
    Object.defineProperty(document, 'cookie', {
        set: function (val) {
            console.log(val)
            info = val;
            return val;
        },
        get: function () {
            return info;
        }
    });
})();
------------end ------------

 

标签:逆向,加密,爬虫,JS,hook,搜索,思路,js,com
From: https://www.cnblogs.com/TF511/p/17010153.html

相关文章

  • 逆向工程 .NET 逆向
    逆向工程.NET逆向1.NET逆向阅读https://blog.csdn.net/cnhk1225/article/details/53568996然后回答问题:Whatdoesthiscodedo?Optimizingcsc.NETcompiler......
  • 逆向工程 Python 逆向
    逆向工程Python逆向Salarypython逆向https://github.com/SKPrimin/HomeWork/ReverseEngineering/lab1_python(选做)运行Salary.pyc,要求输出flag代表成功。直接运行......
  • 爬虫逆向 - 头部信息逆向
    背景:本文只是为了学习逆向技术,与爬取数据无关,所以文中没有数据爬取,只是叙述了JS逆向思路及步骤 请勿对目标网站进行大规模爬取网址:https://ggzyfw.fujian.gov.cn/b......
  • Python爬虫实战,requests+openpyxl模块,爬取小说数据并保存txt文档(附源码)
    前言今天给大家介绍的是Python爬取小说数据并保存txt文档,在这里给需要的小伙伴们代码,并且给出一点小心得。首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基......
  • SDK连接节点失败排查思路
    https://fisco-bcos-documentation.readthedocs.io/zh_CN/latest/docs/faq/connect.html Important:前置说明1.jdk版本支持JavaSDK原则上支持从jdk1.8到jdk15的......
  • 百度指数 Cipher-Text、百度翻译 Acs-Token 逆向分析
    K哥之前写过一篇关于百度翻译逆向的文章,也在bilibili上出过相应的视频,最近在K哥爬虫交流群中有群友提出,百度翻译新增了一个请求头参数Acs-Token,如果不携带该参数,直接......
  • 【JS 逆向百例】某网站加速乐 Cookie 混淆逆向详解
    声明本文章中所有内容仅供学习交流,抓包内容、敏感网址、数据接口均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系我立即删除!逆......
  • ios 逆向 随笔
    使用爱思助手打开ssh通道登入ssh-p2222root@localhostalpine注:如无法连接,可直接删除.ssh目录user/用户/.ssh(rm-rf.ssh)使用frida-ios-dump-master目录中的dump.py脚......
  • Python爬虫实战,requests+tqdm模块,爬取漫画之家漫画数据(附源码)
    前言今天给大家介绍的是Python爬取漫画数据,在这里给需要的小伙伴们代码,并且给出一点小心得。首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求......
  • 【爬虫+数据清洗+可视化分析】舆情分析哔哩哔哩"阳了"的评论
    目录一、背景介绍二、爬虫代码2.1展示爬取结果2.2爬虫代码讲解三、可视化代码3.1读取数据3.2数据清洗3.3可视化3.3.1IP属地分析-柱形图3.3.2评论时间分析-折线图3.3......