首页 > 数据库 >通过Python进行MySQL表信息统计

通过Python进行MySQL表信息统计

时间:2023-05-04 09:04:14浏览次数:60  
标签:count insert binlog Python MySQL update -- mysql 统计

在上一篇文章中简单的介绍了使用python-mysql-replication 来解析 MySQL binlog来完成实时统计的业务,当然,在现实的业务中不可能用的那么简单的。
啰哩八说

今天的目的不是介绍真实的业务场景如何使用 python-mysql-replication,而是推出一枚<MySQL表信息统计>小工具(笔者通过python-mysql-replication实现的)

工具链接: https://github.com/daiguadaidai/mysql_binlog_stat

在之前我也是使用 @吴炳锡 大神的工具, 因为在了的时候感觉显示的有点生涩因此在他的基础上修改了一些重新展示了, 可是在用的时候还是不尽人意。

具体看之前笔者的文章: http://www.ttlsa.com/mysql/mysql-fields-when-time-split/

大神的工具: https://github.com/wubx/mysql-binlog-statistic

笔者重新展示的工具: https://github.com/daiguadaidai/mysql-binlog-statistic

二话不说直接展示如何使用 1、查看帮助
[root@centos7 tmp]# python mysql_binlog_stat.py --help
usage: mysql_binlog_stat.py [-h] [--host HOST] [--port PORT]
                            [--username USERNAME] [--password PASSWORD]
                            [--log-file binlog-file-name]
                            [--log-pos binlog-file-pos]
                            [--server-id server-id] [--slave-uuid slave-uuid]
                            [--blocking False/True] [--start-time start-time]
                            [--sorted-by insert/update/delete]
 
Description: The script parse MySQL binlog and statistic column.
 
optional arguments:
  -h, --help            show this help message and exit
  --host HOST           Connect MySQL host
  --port PORT           Connect MySQL port
  --username USERNAME   Connect MySQL username
  --password PASSWORD   Connect MySQL password
  --log-file binlog-file-name
                        Specify a binlog name
  --log-pos binlog-file-pos
                        Specify a binlog file pos
  --server-id server-id
                        Specify a slave server server-id
  --slave-uuid slave-uuid
                        Specify a slave server uuid
  --blocking False/True
                        Specify is bloking and parse, default False
  --start-time start-time
                        Specify is start parse timestamp, default None,
                        example: 2016-11-01 00:00:00
  --sorted-by insert/update/delete
                        Specify show statistic sort by, default: insert

主要参数介绍:

--log-file: binlog 文件名称

--log-pos: binlog 文件位置(从哪个位置开始解析)

--blocking: 是否需要使用阻塞的方式进行解析始终为 False 就好(默认就是False)

--start-time: 从什么时间开始解析

--sorted-by: 展示的结果通过什么来排序, 默认是通过 insert 的行数的多少降序排列, 设置的值有 insert/update/delete

2、解析 MySQL binlog
root@(none) 09:17:12>show binary logs;
 ------------------ ----------- 
| Log_name         | File_size |
 ------------------ ----------- 
| mysql-bin.000012 | 437066170 |
| mysql-bin.000013 | 536884582 |
| mysql-bin.000014 | 537032563 |
| mysql-bin.000015 | 536950457 |
| mysql-bin.000016 |  87791004 |
| mysql-bin.000017 |       143 |
| mysql-bin.000018 |       143 |
| mysql-bin.000019 |       143 |
| mysql-bin.000020 |       143 |
| mysql-bin.000021 |      1426 |
 ------------------ ----------- 
10 rows in set (0.01 sec)
 
 
# 使用命令
[root@centos7 tmp]# time python mysql_binlog_stat.py --log-file=mysql-bin.000012 --log-pos=120 --username=root --password=root --sorted-by='insert' 
[
    {
        "app_db.business_item_sku_detail": {
            "row_insert_count": {
                "market_price": 273453,
                "sku_id": 273453,
                "weight": 273453
            },
            "table_dml_count": {
                "insert": 273453,
                "update": 0,
                "delete": 0
            },
            "row_update_count": {}
        }
    },
    {
        "app_db.business_item_sku_property": {
            "row_insert_count": {
                "sku_id": 273112,
                "created": 273112,
                "property_value_id": 273112,
                "business_item_id": 273112,
                "record_id": 273112,
                "property_id": 273112
            },
            "table_dml_count": {
                "insert": 273112,
                "update": 0,
                "delete": 0
            },
            "row_update_count": {}
        }
    },
    {
        "app_db.business_item_pic": {
            "row_insert_count": {
                "created": 270993,
                "business_item_id": 270993,
                "pic_id": 270993,
                "pic_no": 270993,
                "tmall_shop_id": 270993,
                "pic_url": 270993
            },
            "table_dml_count": {
                "insert": 270993,
                "update": 0,
                "delete": 0
            },
            "row_update_count": {}
        }
    },
    {
        "app_db.business_item": {
            "row_insert_count": {
                "guide_commission": 264803,
                "commission_type": 264803,
                "pstatus": 264803
            },
            "table_dml_count": {
                "insert": 264803,
                "update": 0,
                "delete": 0
            },
            "row_update_count": {}
        }
    },
    {
        "test.t_binlog_event": {
            "row_insert_count": {
                "auto_id": 5926,
                "dml_sql": 5926,
                "dml_start_time": 5926,
                "dml_end_time": 5926,
                "start_log_pos": 5926,
                "db_name": 5926,
                "binlog_name": 5926,
                "undo_sql": 5926,
                "table_name": 5926,
                "end_log_pos": 5926
            },
            "table_dml_count": {
                "insert": 5926,
                "update": 0,
                "delete": 4017
            },
            "row_update_count": {}
        }
    },
    {
        "test.ord_order": {
            "row_insert_count": {
                "order_id": 184,
                "pay_type": 181,
                "amount": 184,
                "create_time": 184,
                "serial_num": 181
            },
            "table_dml_count": {
                "insert": 184,
                "update": 0,
                "delete": 0
            },
            "row_update_count": {}
        }
    },
    {
        "test.t1": {
            "row_insert_count": {
                "id": 7,
                "name": 7
            },
            "table_dml_count": {
                "insert": 7,
                "update": 2,
                "delete": 2
            },
            "row_update_count": {
                "name": 2
            }
        }
    },
    {
        "test.area": {
            "row_insert_count": {},
            "table_dml_count": {
                "insert": 0,
                "update": 0,
                "delete": 0
            },
            "row_update_count": {}
        }
    }
]
 
real    5m42.982s
user    5m26.080s
sys     0m8.958s

分析了2G多的binlog数据花了大概6分钟时间速度,感觉速度还是不行啊 ^_^。

这边说一下为什么不提供 --stop-log-file, --stop-log-pos, --stop-time 参数

主要是因为 pymysqlreplication 的解析如果是没有解析到结尾,它在 master 上创建的链接会一直存在不会消失,需要人工去master kill掉相关的thread. 我问了作者但是并没有得到很好的回应(估计也是我问问题的方式不对吧)

相关问题请看以下链接,(同时希望大家一起来解决一这问题, 来完善以下这个小程序)。

https://github.com/noplay/python-mysql-replication/issues/177#issuecomment-265069799

原文来自:http://www.ttlsa.com/mysql/mysql-table-columns-statistics-python-mysql-replication/

本文地址:https://www.linuxprobe.com/mysql-table-columns-statistics.html 

标签:count,insert,binlog,Python,MySQL,update,--,mysql,统计
From: https://www.cnblogs.com/linuxpro/p/17370043.html

相关文章

  • python中如何使两个序列相加不改变内存地址的几种方式
    #方式1a=[1,2,3]print(a)#4551311680a.extend([4,5])print(a)#4551311680#方式2b=[1,2,3]print(b)#4494299456b+=[4,5,6]print(b)#4494299456#重点讲解方式2+=的方式是因为内部实现了__iadd__()魔法方法,内部行为类似于a.extend(b)。但是要区别于b=......
  • Python_16 配置文件与封装
    一、查缺补漏 1.ctrl+alt+L规范格式 2.Python使用ini&yaml配置文件 http://testingpai.com/article/1621245437855 3.如何进行SDK的测试 https://www.cnblogs.com/winson-317/p/9896645.html 4.Shift+alt+E执行选中的代码二、配置文件分类三种配置文件效率一致,p......
  • Python实现艾宾浩斯背单词功能
    本项目主要是通过在事先准备好的excel单词文件中每天抽取单词,并反复使用QQ邮箱发送到自己的邮箱里提醒自己有一定规律的背单词,项目最大的难点有三。对于csv文件的对应切片任务等操作对于日志的记录艾宾浩斯记忆法是一个周期性的过程,需要反复的计算。当然,由于这个项目的文件还是......
  • 使用Python实现基于图像的物体识别技术
    摘要:物体识别是计算机视觉技术中的一个核心问题,其应用涵盖了许多领域。本文将介绍如何使用Python编写一个简单的基于图像的物体识别程序,并且通过实际案例展示其应用。关键词:Python,物体识别,计算机视觉,OpenCV一、需求分析在使用Python实现物体识别技术之前,我们需要了解应用的具体需求......
  • 使用Python实现Ubuntu搜狗输入法的安装
    Ubuntu搜狗输入法在每次安装后都需要重新配置,非常繁琐。我们可以使用Python的subprocess模块来实现。以下是示例代码,它使用了subprocess模块中的check_call()函数来执行安装命令:importsubprocesssubprocess.check_call(['sudo','add-apt-repository','-y','ppa:fcitx-team/nig......
  • Python基础
    预计更新一、爬虫技术概述1.1什么是爬虫技术1.2爬虫技术的应用领域1.3爬虫技术的工作原理二、网络协议和HTTP协议2.1网络协议概述2.2HTTP协议介绍2.3HTTP请求和响应三、Python基础3.1Python语言概述3.2Python的基本数据类型3.3Python的流程控制语句3.4Python的函数和......
  • 【Python&Hypermesh】ABAQUS导入网格,并在Part内保留SET
    在Hypermesh定义好set,划分好网格以后,可以导出为INP。然后在ABAQUS导入inp,就可以得到网格。但是这样倒进来的网格一般有两个问题:网格全在一个部件里,原来定义好的Set会出现在装配级别下,而不是Part级别,这在某些情况还是比较麻烦的Hypermesh中的component并不和ABAQUS的Part相对应......
  • Python flask-sqlalchemy
    安装pip3installmysql-connector-pythonpipinstallflask_sqlalchemy /setting.pyclassConfigs:#数据库信息MYSQL_USER=''MYSQL_PWD=''MYSQL_HOST=''MYSQL_PORT=''DBNAME=''......
  • Python - 字典视图
    dict的实例方法.keys()、.values()、.items()分别返回dict_keys、dict_values和dict_items类的实例。这些字典视图是dict内部实现使用的数据结构的只读投影。Python2种对应的方法返回列表,重复dict中已有的数据,有一定的内存开销。另外,视图还取代了返回迭代器的旧方法>>>d......
  • wordpress插件:安装使用统计插件Post Views Counter(Post Views Counter 1.3.13 / wor
    一,安装插件搜索到结果后,点击PostViewsCounter的立即安装按钮安装完成后,点击启用按钮启用此插件,如图:说明:刘宏缔的架构森林是一个专注架构的博客,地址:https://www.cnblogs.com/architectforest     对应的源码可以访问这里获取: https://github.com/liuhong......