首页 > 其他分享 >mitmproxy 抓包神器-3.抓取网站数据或图片

mitmproxy 抓包神器-3.抓取网站数据或图片

时间:2023-02-13 11:35:01浏览次数:50  
标签:插件 flow request 抓取 mitmproxy print 抓包

前言

Mitmproxy是一个免费的开源交互式的HTTPS代理。MITM即中间人攻击(Man-in-the-Middle Attack)。
mitmproxy 工具有以下三个组件构成

  • mitmproxy 是具有 SSL/TLS 功能的交互式拦截侦听代理,具有用于HTTP/1,HTTP/2和WebSockets的控制台界面。
  • mitmweb 是用于 mitmproxy 的基于 Web 的界面, 提供一个可视化界面帮助我们查看抓取的请求,可以修改返回内容。
  • mitmdump 它是mitmproxy的命令行接口,利用它我们可以对接Python脚本,用Python实现监听后的处理。

Addons 插件开发

Mitmproxy 的插件机制是 mitmproxy 的一个非常强大的部分。事实上,mitmproxy自己的大部分功能都是在一套内置插件中定义的,实现了从 anticaching 和sticky cookies 到我们的登录Web应用程序的所有功能。
插件通过响应事件与 mitmproxy 进行交互,这允许它们勾入并改变 mitmprox的行为。它们通过选项进行配置,这些选项可以在mitmproxy的配置文件中设置,用户可以交互更改,也可以通过命令行传递。最后,它们可以公开命令,这允许用户直接或通过将它们绑定到交互工具中的键来调用它们的操作。

一个简单的Addons 插件示例

"""
Basic skeleton of a mitmproxy addon.

Run as follows: mitmproxy -s anatomy.py
"""
from mitmproxy import ctx


class Counter:
    def __init__(self):
        self.num = 0

    def request(self, flow):
        self.num = self.num + 1
        ctx.log.info("We've seen %d flows" % self.num)


addons = [Counter()]

上面是一个简单的插件,它跟踪我们看到的流(或者更具体地说HTTP请求)的数量。
每当它看到一个新的流时,它都会使用mitmproxy的内部日志机制来宣布其计数。输出可以在交互工具的事件日志中找到,也可以在mitmdump的控制台上找到。
让它旋转一下,并通过将其加载到您选择的mitmproxy工具中,确保它完成了它应该做的事情。

我们将在示例中使用mitmdump 命令运行插件

mitmdump -s ./anatomy.py

以下是关于上述代码的一些注意事项:

  • Mitmproxy获取插件全局列表的内容,并将其找到的内容加载到插件机制中。
  • 插件只是对象——在本例中,我们的插件是Counter的一个实例。
  • request 方法是一个事件的示例。插件只需为它们要处理的每个事件实现一个方法。API文档中记录了每个事件及其签名。
  • 最后,ctx模块是一个 holdall 模块,它公开了一组常用于插件的标准对象。
    我们可以将一个ctx对象作为每个事件的第一个参数传递,但我们发现将它作为一个可导入的全局对象公开更方便。在本例中,我们使用ctx.log对象进行日志记录。

有时,我们希望编写一个快速脚本,而不必经历创建类的麻烦。
插件机制有一个简写,允许将模块作为一个整体处理为插件对象。
这使我们可以将事件处理程序函数放置在模块范围中。例如,这里有一个完整的脚本,它为每个请求添加一个头:

"""An addon using the abbreviated scripting syntax."""


def request(flow):
    flow.request.headers["myheader"] = "value"

抓取浏览器上的请求简单示例

目标是抓取浏览器上的访问页面的请求,比如访问https://www.cnblogs.com/yoyoketang/ 我的博客地址,通过插件抓取请求
demo1.py 代码如下:

from mitmproxy import http
# 作者:上海-悠悠 微信号:283340479

def request(flow: http.HTTPFlow):
    # 对url 过滤,仅抓取我的博客地址
    if "https://www.cnblogs.com/yoyoketang/" == flow.request.url:
        print('请求方法', flow.request.method)
        print('请求类型', flow.request.scheme)
        print('请求url', flow.request.url)
        print('域名', flow.request.host)
        print('请求路径', flow.request.path)
        # 返回MultiDictView类型的数据,URL的键值参数
        print('url的键值参数', flow.request.query)
        print('请求头', flow.request.headers)
        print('cookies', flow.request.cookies)

启动服务

>mitmdump -s ./demo1.py
Loading script ./demo1.py
Proxy server listening at http://*:8080

默认监听端口8080

设置本机代理

浏览器上访问我的博客,就可以看到抓取请求了

爬取数据

爬取数据用到response 方法
目标:收集网站打开时,加载的jpg图片,如下打开网站后,加载出来的图片

from mitmproxy import http
# 作者:上海-悠悠 微信号:283340479

def response(flow: http.HTTPFlow):
    print('===========下载==============')
    if "pic.netbian.com" == flow.request.host:
        if flow.request.url.endswith('jpg'):
            with open(flow.request.url[-18:].replace('/', ''), 'wb') as f:
                f.write(flow.response.get_content())

运行后收集到网页上加载的图片

除了爬取图片,也可以爬取页面上的其它数据。
如果想自动控制页面操作,可以结合selenium等前端自动化的工具。Mitmproxy 起到抓取网络请求的request 和 response 对象。

标签:插件,flow,request,抓取,mitmproxy,print,抓包
From: https://www.cnblogs.com/yoyoketang/p/17114580.html

相关文章

  • 用AngleSharp & LINQPad抓取分析博客园排行榜
    AngleSharp简单介绍AngleSharp是一个.NET库使您能够解析基于尖括号的超文本,如HTML、SVG、MathML、XMLAngleSharp的一个重要方面是CSS也可以解析。同时还是开源,免费......
  • Python黑客编程之scapy抓包发包
    目的用scapy进行二层发包,实现arp欺骗,并抓取本地网卡的数据报,来截获目标机器和网关之间的流量scapy介绍scapy是python中一个可用于网络嗅探的非常强大的第三方库,可以......
  • wireshark抓包教程详解
    https://blog.csdn.net/lixinkuan328/article/details/122985439 1、打开wireshark 2、选择菜单栏上Capture->Option,勾选WLAN网卡(这里需要根据各自电脑网卡使用情......
  • Python爬虫-第四章-5-高效抓取视频网站视频资源至本地
    本章内容:  91看剧抓取影视资源  流程:    1.获取影片播放页面源码    2.获取m3u8链接地址    3.下载m3u8文件    4.读取m3u8......
  • 网页抓取实例之wildberries电商平台数据抓取
     电商平台的数据抓取,一直是网页抓取公式的热门实战实例,之前我们通常是针对国内的电商平台进行数据抓取,昨天小编受到委托,针对一个俄罗斯电商平台wildberries做了数据抓取,......
  • python数据抓取,抓点星星网的内容
    代码:#coding=utf-8importos,sys,reimportrequestsfromwebob.excimportstrip_tagsfromxpinyinimportPinyindefstr2dict(str):dict={}groups1......
  • (转)Fiddler抓包工具之详细使用步骤(超详细)
    原文:https://blog.csdn.net/qq_42961150/article/details/122545929Fiddler抓包工具,前端开发中进行调试的时候,可以作为辅助工具进行数据模拟。下面详细的写下使用步骤。......
  • Spider实战系列-抓取《一人之下第三季》
    今天我们抓取的是m3u8的视频,视频有长视频和短视频之分.抓取m3u8类型视频对于短视频一般来说一个视频对应的就是一个url长视频  一个视频就几百兆到几十G不等 这种视频......
  • DHCP-ack抓包
    No.TimeSourceDestinationProtocolInfo20.013341192.168.137.1255.255.255.255DHCPDHCPACK-TransactionID0xf6d7ec89Fra......
  • dhcp Request抓包
    No.TimeSourceDestinationProtocolInfo7099.872742192.168.137.199192.168.137.1DHCPDHCPRequest-TransactionID0x5f2d512aFra......