08-Redis系列之-Redis布隆过滤器，MySQL主从，Django读写分离

标签：bf 08 Redis 布隆 Django master mysql 过滤器 home

Redis实现布隆过滤器

前言

布隆过滤器使用场景

比如有如下几个需求：

原本有10亿个号码，现在又来了10万个号码，要快速准确判断这10万个号码是否在10亿个号码库中？

　　解决办法一：将10亿个号码存入数据库中，进行数据库查询，准确性有了，但是速度会比较慢。

　　解决办法二：将10亿号码放入内存中，比如Redis缓存中，这里我们算一下占用内存大小：10亿*8字节=8GB，通过内存查询，准确性和速度都有了，但是大约8gb的内存空间，挺浪费内存空间的。

接触过爬虫的，应该有这么一个需求，需要爬虫的网站千千万万，对于一个新的网站url，我们如何判断这个url我们是否已经爬过了？

解决办法还是上面的两种，很显然，都不太好。
同理还有垃圾邮箱的过滤。

那么对于类似这种，大数据量集合，如何准确快速的判断某个数据是否在大数据量集合中，并且不占用内存，布隆过滤器应运而生了。

布隆过滤器简介

一种数据结构，是由一串很长的二进制向量组成，可以将其看成一个二进制数组。既然是二进制，那么里面存放的不是0，就是1，但是初始默认值都是0。

它是一种 space efficient 的概率型数据结构，用于判断一个元素是否在集合中。

当布隆过滤器说，某个数据存在时，这个数据可能不存在;当布隆过滤器说，某个数据不存在时，那么这个数据一定不存在。

大致数据结构图

布隆过滤器优缺点

优点很明显，二进制组成的数组，占用内存极少（节省内存），并且插入和查询速度都足够快。
随着数据的增加，误判率会增加；还有无法判断数据一定存在；另外还有一个重要缺点，无法删除数据。（布隆过滤器是不支持删除数据的，如果需要删除数据则需要重建缓存信息。）
布隆过滤器使用多次hash计算，也会存在hash冲突情况。这会导致一个问题，当检测过滤器是否存在数据时，检测到存在，实际不一定存在。相同的检测到不存在，则缓存中一定不存在。

布隆过滤器原理

BloomFilter的算法是，首先分配一块内存空间做 bit 数组，数组的 bit 位初始值全部设为 0。

加入元素时，采用 k 个相互独立的 Hash 函数计算，然后将元素 Hash 映射的 K 个位置全部设置为 1。

检测 key 是否存在，仍然用这 k 个 Hash 函数计算出 k 个位置，如果位置全部为 1，则表明 key 存在，否则不存在。

如下图所示

哈希函数会出现碰撞，所以布隆过滤器会存在误判。

这里的误判率是指，BloomFilter 判断某个 key 存在，但它实际不存在的概率，因为它存的是 key 的 Hash 值，而非 key 的值。

所以有概率存在这样的 key，它们内容不同，但多次 Hash 后的 Hash 值都相同。

对于 BloomFilter 判断不存在的 key ，则是 100% 不存在的，反证法，如果这个 key 存在，那它每次 Hash 后对应的 Hash 值位置肯定是 1，而不会是 0。布隆过滤器判断存在不一定真的存在。

为什么不允许删除元素呢?

删除意味着需要将对应的 k 个 bits 位置设置为 0，其中有可能是其他元素对应的位。

因此 remove 会引入 false negative，这是绝对不被允许的。

文档

https://redis.io/docs/stack/bloom/

https://github.com/RedisBloom/RedisBloom/

操作

docker安装

docker详解：https://www.cnblogs.com/hkwJsxl/p/17164139.html

RedisBloom需要先进行安装，推荐使用Docker进行安装，简单方便（或使用直接编译安装）

1.拉取镜像
docker pull redislabs/rebloom:latest
1.1或使用阿里云上的（速度会快点）
docker pull registry.cn-hangzhou.aliyuncs.com/hankewei/hkwimage:redisbloom2.4.5
docker tag registry.cn-hangzhou.aliyuncs.com/hankewei/hkwimage:redisbloom2.4.5 redislabs/rebloom:2.4.5
docker rmi registry.cn-hangzhou.aliyuncs.com/hankewei/hkwimage:redisbloom2.4.5
2.运行
docker run -di -p 6666:6379 --name redis-redisbloom redislabs/rebloom:2.4.5
3.进入
docker exec -it redis-redisbloom /bin/bash
4.登录到Redis
redis-cli
# 查看Redis模块
127.0.0.1:6379> info Modules
# Modules
module:name=bf,ver=20206,api=1,filters=0,usedby=[],using=[],options=[]

第二种安装方式(编译安装)

当然也可以直接编译进行安装

1.git克隆
git clone https://github.com/RedisBloom/RedisBloom.git
2.解压缩
tar -zxf RedisBloom-2.4.5.tar
3.进入文件
cd RedisBloom-2.4.5
4.编译，会生成一个rebloom.so文件
make
5.安装集成
需要修改 redis.conf 文件，新增 loadmodule配置，并重启 Redis。
loadmodule /home/RedisBloom-2.4.5/redisbloom.so
如果是集群，则每个实例的配置文件都需要加入配置。
6.启动
redis-server /home/redis/conf/redis.conf
如果没有更改配置文件，需要指定参数
redis-server --loadmodule /home/RedisBloom-2.4.5/redisbloom.so
redis-cli -h 127.0.0.1 -p 6379

此模块不仅仅实现了布隆过滤器，还实现了 CuckooFilter（布谷鸟过滤器），以及 TopK 功能。CuckooFilter 是在 BloomFilter 的基础上主要解决了BloomFilter不能删除的缺点。先来看看 BloomFilter，后面介绍一下 CuckooFilter。

基本命令

bf.add 添加元素到布隆过滤器
bf.madd 添加多个元素到布隆过滤器，bf.add只能添加一个
bf.exists 判断元素是否在布隆过滤器
bf.mexists 判断多个元素是否在布隆过滤器

添加数据

# 单个添加
127.0.0.1:6379> bf.add bfkey 1
(integer) 1
127.0.0.1:6379> bf.add bfkey 2
(integer) 1
127.0.0.1:6379> bf.add bfkey 3
(integer) 1
127.0.0.1:6379> bf.add bfkey 3
(integer) 0

# 批量添加
127.0.0.1:6379> bf.madd bfkey 4 5 6
1) (integer) 1
2) (integer) 1
3) (integer) 1

# 通过添加会发现，如果元素已经存在，则返回的是0值。

检测数据

# 检测单个值
127.0.0.1:6379> bf.exists bfkey 1
(integer) 1
127.0.0.1:6379> bf.exists bfkey 2
(integer) 1
127.0.0.1:6379> bf.exists bfkey 10
(integer) 0

# 批量检测
127.0.0.1:6379> bf.mexists bfkey 1 2 3 10
1) (integer) 1
2) (integer) 1
3) (integer) 1
4) (integer) 0

# 通过检测会发现，如果元素不存在，则返回的是0值。

误判率

布隆过滤器在第一次add的时候自动创建基于默认参数的过滤器，Redis还提供了自定义参数的布隆过滤器。

在add之前使用bf.reserve指令显式创建，其有3个参数，key，error_rate， initial_size，错误率越低，需要的空间越大，error_rate表示预计错误率，initial_size参数表示预计放入的元素数量，当实际数量超过这个值时，误判率会上升，所以需要提前设置一个较大的数值来避免超出。

默认的error_rate是0.01，initial_size是100。

利用布隆过滤器减少磁盘 IO 或者网络请求，因为一旦一个值必定不存在的话，我们可以不用进行后续昂贵的查询请求。

# 误判率测试
import redis
client = redis.Redis(host='10.0.0.10', port=6666)
size = 100000
count = 0
client.execute_command("bf.reserve", "hkw", 0.001, size)  # 如果没有这一行，误判率会高很多（error rate: 1.096%）
for i in range(size):
    client.execute_command("bf.add", "hkw", "xxx%d" % i)
    result = client.execute_command("bf.exists", "hkw", "xxx%d" % (i + 1))
    if result == 1:
        print(i)
        count += 1
print("size: {} , error rate: {}%".format(size, round(count / size * 100, 5)))
"""
结果：
85547
91103
93019
size: 100000 , error rate: 0.003%
"""

MySQL主从搭建(Docker实现)

docker详解：https://www.cnblogs.com/hkwJsxl/p/17164139.html

主从同步的流程或原理

master会将变动记录到二进制日志里面
master有一个I/O线程将二进制日志发送到slave
slave有一个I/O线程把master发送的二进制写入到relay日志里面
slave有一个SQL线程，按照relay日志处理slave的数据

开始搭建

0.创建目录
mkdir -p /home/mysql11/data/ /home/mysql11/conf /home/mysql11/logs/ /home/mysql22/data/ /home/mysql22/conf /home/mysql22/logs/

配置文件

主库的配置文件

1.主库的配置(主从server-id不能相同)
vim /home/mysql11/conf/my.cnf

[mysqld]
# 主服务器唯一ID
server-id=1
# 启用二进制日志
log-bin=mysql-bin
# 设置需要复制的数据库，需要复制的主数据库名字(默认同步所有数据库)
# binlog-do-db=testdb
# 设置logbin格式
binlog_format=STATEMENT

从库的配置文件

2.从库的配置
vim /home/mysql22/conf/my.cnf

[mysqld]
#从服务器唯一ID
server-id=2
#日志
log-bin=mysql-slave-bin
#启用中继日志
relay-log=mysql-relay

启动两个mysql容器

启动主库容器

3.启动主库容器（挂载外部目录，端口映射成33306，密码设置为root123456）
docker run -di -v /home/mysql11/data/:/var/lib/mysql -v /home/mysql11/conf:/etc/mysql/conf.d -v /home/mysql11/logs/:/var/log/mysql -p 7777:3306 --name mysql-master -e MYSQL_ROOT_PASSWORD=root123456 mysql:mysql8.0.32

启动从库容器

4.启动从库容器（挂载外部目录，端口映射成33307，密码设置为root123456）
docker run -di -v /home/mysql22/data/:/var/lib/mysql -v /home/mysql22/conf:/etc/mysql/conf.d -v /home/mysql22/logs/:/var/log/mysql -p 7778:3306 --name mysql-slave -e MYSQL_ROOT_PASSWORD=root123456 mysql:mysql8.0.32

报错处理

# 错误信息
1.
2023-03-04 13:48:56+00:00 [ERROR] [Entrypoint]: mysqld failed while attempting to check config
	command was: mysqld --privileged=true --verbose --help --log-bin-index=/tmp/tmp.Biw5OQ23f8
	mysqld: Can't read dir of '/etc/mysql/conf.d/' (OS errno 2 - No such file or directory)
mysqld: [ERROR] Stopped processing the 'includedir' directive in file /etc/my.cnf at line 36.
mysqld: [ERROR] Fatal error in defaults handling. Program aborted!
2.
2023-03-04T14:33:20.604801Z 1 [ERROR] [MY-012956] [InnoDB] Cannot allocate memory for the buffer pool
2023-03-04T14:33:20.628786Z 1 [ERROR] [MY-012930] [InnoDB] Plugin initialization aborted with error Generic error.
2023-03-04T14:33:20.637344Z 1 [ERROR] [MY-010334] [Server] Failed to initialize DD Storage Engine
2023-03-04T14:33:20.669372Z 0 [ERROR] [MY-010020] [Server] Data Dictionary initialization failed.
2023-03-04T14:33:20.670085Z 0 [ERROR] [MY-010119] [Server] Aborting

# 注意点
1.mysql一直起不来，原因是不同的mysql版本可能目录结构不同，原先挂载的/home/mysql11/conf:/etc/mysql报错，后改为了/home/mysql11/conf:/etc/mysql/conf.d
2.log-bin=mysql-bin 这个配置不要随便更改
3.第二个报错解决：主要是Cannot allocate memory for the buffer pool
这是因为MySQL内存不足导致启动失败
查询内存的命令：free -h
解决方法：
增加swap交换空间解决问题：
dd if=/dev/zero of=/swapfile bs=1M count=1024
mkswap /swapfile
swapon /swapfile
增加自动挂载：
sudo vim /etc/fstab
在下面添加：
/swapfile swap swap defaults 0 0
重启mysql问题解决

创建用户并授权

5.创建用户并授权
5.0进入主库中
docker exec -ti mysql-master /bin/bash
mysql -uroot -p
root123456
5.1创建用户
CREATE USER 'hkw'@'localhost' IDENTIFIED BY 'root123456';
CREATE USER 'hkw'@'%' IDENTIFIED BY 'root123456';
5.2设定权限
grant all privileges on *.* to 'hkw'@'localhost';
grant all privileges on *.* to 'hkw'@'%';
5.3刷新权限
flush privileges;
5.4查看主服务器状态,可以看到日志文件的名字，和现在处在哪个位置
show master status;

主从配置

6.0配置详解
/*
change master to 
master_host='MySQL主服务器IP地址', 
master_port=端口号,
master_user='之前在MySQL主服务器上面创建的用户名'，
master_password='之前创建的密码', 
master_log_file='MySQL主服务器状态中的二进制文件名'（上条命令中有）, 
master_log_pos='MySQL主服务器状态中的position值';
*/
6.1连接从库，配置连接主库
docker exec -ti mysql-slave /bin/bash
mysql
6.2输入命令
change master to master_host='10.0.0.10',master_port=7777,master_user='hkw',master_password='root123456',master_log_file='mysql-bin.000003',master_log_pos=0;
6.3启用从库
start slave;
6.4查看从库状态
show slave status\G;
这两个是yes表示配成功(可能要等待一会查看)
Slave_IO_Running: Yes
Slave_SQL_Running: Yes

测试

7.0测试(可有可无)
navicat连一连
7.1在主库上创建数据库t1
create database t1;
use t1;
7.2创建表
create table t1 (id int not null PRIMARY KEY AUTO_INCREMENT, name varchar(100)not null, age tinyint);
7.3插入数据
insert t1 (id,name,age) values(1,'xxx',20),(2,'yyy',21),(3,'zzz',22);

Django实现读写分离

0.上面的主从搭建好
1.在setting中配置
DATABASES = {
    # 主库
    'default': {
        'ENGINE': 'django.db.backends.mysql',
        'NAME': 't1',
        'USER': 'hkw',
        'PASSWORD': 'root123456',
        'HOST': '10.0.0.10',
        'PORT': 7777,
    },
    # 从库
    'mysql_slave': {
        'ENGINE': 'django.db.backends.mysql',
        'NAME': 't1',
        'USER': 'hkw',
        'PASSWORD': 'root123456',
        'HOST': '10.0.0.10',
        'PORT': 7778,
    },
}
2.手动指定使用的主库还是从库（默认不写就是default）
写库(主)
res=models.Book.objects.using('default').create(name='mysql_test', age=22)
读库(从)
res=models.Book.objects.using('mysql_slave').all()
3.自动指定（写router和配置setting）
3.0写个类
class Router:
    def db_for_read(self, model, **hints):
        print('read', model, hints)
        return 'mysql_slave'
    def db_for_write(self, model, **hints):
        # model, hints：model对象，表创建的实例对象
        print('write', model, hints)
        return 'default'
3.1在setting中注册（类的导入路径）
DATABASE_ROUTERS = ['extension.models.master_and_slave.Router', ]
4.以后只要是写操作，就会用主库default，只要是读操作自动去从库mysql_slave
5.更细粒度（分库分表，只有大数据量大并发的时候会用到）
class Router:
    def db_for_read(self, model, **hints):
        if model._meta.model_name == 'book':
            return 'mysql_slave'
        else:
            return 'default'
    def db_for_write(self, model, **hints):
        return 'default'

# Django migrate报错处理：
django.db.utils.OperationalError: (1665, 'Cannot execute statement: impossible to write to binary log since BINLOG_FORMAT = STATEMENT and at least one table uses a storage engine limited to row-based logging. InnoDB is limited to row-logging when transaction isolation level is READ COMMITTED or READ UNCOMMITTED.')
解决：
mysql> SET GLOBAL binlog_format = 'ROW';
mysql> show variables like 'binlog_format';

标签：bf,08,Redis,布隆,Django,master,mysql,过滤器,home
From： https://www.cnblogs.com/hkwJsxl/p/17181554.html