首页 > 编程语言 >03 进阶篇-高阶数据类型BitMaps、HyperLogLogs

03 进阶篇-高阶数据类型BitMaps、HyperLogLogs

时间:2024-02-19 15:01:46浏览次数:42  
标签:03 01 users 数据类型 用户 BitMaps HLL online

BitMaps

  • 介绍BitMaps的基本概念,它是一种通过位来表示数据的方法,能高效地处理大量布尔值。
  • 展示BitMaps在用户在线状态、统计等方面的应用示例。
  • 介绍相关的命令,如 SETBIT, GETBIT, BITCOUNT, BITOP 等。

BitMaps的基本概念

BitMaps,或称为位图,是Redis中用于高效处理大量布尔值的数据结构。在BitMaps中,数据以位(bit)为单位存储,每个位的值只能是0或1。由于每个位只占用极小的空间,BitMaps特别适合于处理大规模的布尔值数据集。

如何工作?

  • 存储:在BitMaps中,布尔值通过位的形式存储。例如,你可以用一个位来表示用户的某个特定状态(如是否在线),其中1表示“是”,0表示“否”。
  • 索引:BitMaps通过位的位置(也称为偏移量)来访问数据。例如,第0位表示第一个用户,第1位表示第二个用户,以此类推。

优点

  • 空间效率:由于只用一个位来表示一个布尔值,BitMaps非常节省空间。
  • 性能高效:操作位比操作整个数据结构(如字符串或整数)更快,特别是在处理大量数据时。
  • 灵活性:可以使用位运算来快速计算并集、交集等。

应用场景

  • 用户状态跟踪:例如,跟踪用户的在线或活跃状态。你可以为每个用户分配一个位,并根据用户的状态设置这个位的值。
  • 统计计数:例如,统计某个事件的发生次数。利用BitMaps的位操作,可以高效地进行计数。
  • 特征标志:对于需要大量布尔标志的场景,如用户偏好、访问权限等,使用BitMaps可以节省大量空间。

示例1: 用户在线状态跟踪

假设我们要跟踪用户的在线状态,其中每个用户由一个唯一的用户ID表示。

# 设置用户ID 1为在线(将位设置为1)
SETBIT online_users 1 1

# 设置用户ID 2为离线(将位设置为0)
SETBIT online_users 2 0

# 检查用户ID 1是否在线
GETBIT online_users 1

# 检查用户ID 2是否在线
GETBIT online_users 2

# 计算在线用户总数
BITCOUNT online_users

在这个示例中,我们使用 SETBIT 命令来设置特定位的值,用来表示用户的在线或离线状态。GETBIT 用于检查特定用户的状态,而 BITCOUNT 命令用于统计有多少位被设置为1,也就是在线用户的数量。

示例2: 统计特定日活跃用户数量

假设我们要记录每天的用户活跃状态,可以为每天使用一个不同的Key。

# 假设用户ID 1和2在某天活跃
SETBIT active_users:2024-01-01 1 1
SETBIT active_users:2024-01-01 2 1

# 计算那天的活跃用户数
BITCOUNT active_users:2024-01-01

在这个示例中,我们为每天创建了一个不同的Key(如 active_users:2024-01-01),并使用 SETBIT 来记录活跃的用户。BITCOUNT 被用来统计特定日的活跃用户总数。

示例3: 使用位运算找到同时在线的用户

如果想找出在两个不同时间段内都在线的用户,可以使用位运算。

# 假设两个时间段的在线用户数据
SETBIT online_users:time1 1 1
SETBIT online_users:time1 2 0
SETBIT online_users:time2 1 1
SETBIT online_users:time2 3 1

# 使用AND运算找出同时在线的用户
BITOP AND online_users:both_time online_users:time1 online_users:time2

# 计算结果
BITCOUNT online_users:both_time

在这个示例中,BITOP AND 命令被用来对两个时间段的在线用户数据进行“与”运算,结果显示在这两个时间段内都在线的用户数。
这些示例展示了如何使用Redis中的BitMaps来有效地处理和查询大量布尔值数据,特别是在跟踪用户状态和计数方面。

使用注意

  • 位偏移量限制:虽然理论上位偏移量可以非常大,但实际使用中应注意内存使用情况。
  • 不直观:直接查看或调试BitMaps可能不如其他数据结构直观,需要通过命令进行转换或解析。

总的来说,BitMaps在Redis中提供了一种极为高效且空间节省的方法来处理和查询大量的布尔值数据。适当利用这一特性,可以显著提升应用的性能和效率。

  • HyperLogLogs
    • 解释HyperLogLogs用于高效地进行基数统计(如统计独立访客数)的特性。
    • 介绍其原理和使用场景。
    • 展示如何使用 PFADD, PFCOUNT, PFMERGE 等命令操作HyperLogLogs。

HyperLogLogs

HyperLogLogs(HLL)是 Redis 提供的一种高级数据结构,专门用于高效地进行基数统计,即估算一个数据集中不同元素的数量。它在处理大型数据集(如统计独立访客数)时特别有用。

基本原理

HLL 使用哈希函数将每个输入元素映射到一个较大的空间,然后在这个空间中跟踪多个桶(bucket)。算法会根据哈希值的分布估算基数。由于使用的是概率算法,所以HLL能够在保持较小误差的同时大幅减少内存占用。

  1. 哈希函数:当一个元素被添加到 HLL 中时,它首先被一个哈希函数处理,转换为一个长的二进制字符串。
  2. 前导零:然后,HLL 计算这个哈希值前导零的数量。一个较大数量的前导零通常意味着一个更大的基数。
  3. 桶(Buckets):HLL 使用多个桶来存储这些前导零的最大数量。每个桶代表哈希值的一个子集。
  4. 基数估算:最后,HLL 使用这些桶中的值来估算整个数据集的基数。

由于使用概率算法,HLL 可以在接受一定误差的情况下,大幅减少计算和存储资源的需求。

优点

空间效率:HyperLogLogs 使用概率算法,可以用极少的内存(大约 12KB)来估计非常大的数据集中的基数(唯一元素的数量)。
误差范围:虽然HLL提供的是估计值,但误差率通常低于 1%。
可扩展性:适用于大型数据集和高流量的场景。
运算简单:HLL 提供简单的增加和合并操作,易于实现和使用。

使用场景

  • 独立访客数统计:例如,统计一个网站或应用在一定时间内的独立访客数。
  • 大数据集的基数估计:在大规模数据处理中,当精确计数成本过高时,使用 HLL 进行近似计数。
  1. 大数据统计:在需要处理大量数据集的场景中,例如统计一个大型网站或应用的独立用户数。
  2. 实时分析:适用于需要实时处理和反馈的场景,如实时监控系统。
  3. 资源受限环境:在内存或存储空间有限的环境中,HLL 提供了一种节省资源的计数方法。
  4. 网络流量分析:在网络监控和流量分析中,HLL 能高效地估算通过特定点的独立IP地址数量。
  5. 广告和营销分析:用于估算广告观看或网页浏览的独立用户数。

示例1 实时分析:统计网站每日独立访客数

假设我们要统计一个网站每天的独立访客数,我们可以为每天创建一个不同的 HyperLogLog 键。

bashCopy code
# 对于每个独立访客(假设以IP地址标识),添加到当天的HLL
PFADD hll_visitors:2024-01-01 "192.168.1.1"
PFADD hll_visitors:2024-01-01 "192.168.1.2"
# ... 每次有新访客时继续添加

# 计算当天的估计独立访客数
PFCOUNT hll_visitors:2024-01-01

这段代码中,每当有新的访客访问网站,我们就使用其IP地址作为输入,将其添加到对应日期的 HLL 中。PFADD 命令用于添加元素,而 PFCOUNT 用于获取估算的基数,即独立访客数。

示例2 网络流量分析:估算通过特定网络节点的独立IP地址数量

在网络流量分析中,我们可能想要估算在一定时间内通过特定网络节点的独立 IP 地址数量。

bashCopy code
# 对于每个通过网络节点的IP地址,添加到HLL
PFADD hll_network_traffic "10.0.0.1"
PFADD hll_network_traffic "10.0.0.2"
# ... 每次检测到新IP时继续添加

# 计算估计的独立IP地址数量
PFCOUNT hll_network_traffic

在此示例中,每个经过特定网络节点的独立 IP 地址被记录在 hll_network_traffic 这个 HLL 键中。这对于估算网络负载或监测网络活动非常有用。

标签:03,01,users,数据类型,用户,BitMaps,HLL,online
From: https://www.cnblogs.com/linjz/p/18021099

相关文章

  • code: 'ERR_OSSL_EVP_UNSUPPORTED' 报错解决
    报错:Error:error:0308010C:digitalenveloperoutines::unsupportedatnewHash(node:internal/crypto/hash:69:19)atObject.createHash(node:crypto:133:10)atBulkUpdateDecorator.hashFactory(D:\WzProject\wz-middle-ground-frontend\node_module......
  • 20 - 常见内置数据类型
    Python常见内置数据类型在Python中,常用的类型是这些:Python中查看数据类型的函数(function)为type()。>>>text="Istestastringtypeobject?">>>print(type(text))<class'str'>Python中常看内置方法(build-inmethod)的函数为dir()。>>>dir(tex......
  • ts接口03
    //接口对对象的形状进行描述可以理解为一种约束//?表示为可选属性,表示可有可无//[prop:string]代表任意属性,当不确定属性名的时候,属性类型,可以使用,但是要注意的是,一旦确定了不是any类型,而是string,number,Boolean之类的,其他的类型也会变成他的子集//[prop:string]中如......
  • 饮冰十年-人工智能-ArangoDB-03-AQL
    上一篇:饮冰十年-人工智能-ArangoDB-02-AQLvsSQL本课程的示例数据集基于小说和电视连续剧《三国演义》。它包括两种语言的性格特征、一些人物关系,以及一小部分地点。ToDo:整体完成后补充一、基本CRUD操作1、创建集合我们无法使用AQL创建集合,我们将使用Web界面创建集合......
  • 用python脚本自动发送钉钉消息出现服务器异常的报错: HTTPSConnectionPool(host='oapi.
    一、问题描述执行python脚本发送钉钉消息,出现报错:HTTPSConnectionPool(host='oapi.dingtalk.com',port=443):Maxretriesexceededwithurl:/robot/send?access_token=43df999582e899dc6815c9d6346c9d253060259625c92e4f166e25ea58e5bdb5&timestamp=1708242748918&sign......
  • vue报错: error:0308010C:digital envelope routines::unsupported
    问题解决参考:https://blog.csdn.net/m0_65933139/article/details/130690790问题描述:报错:Error:error:0308010C:digitalenveloperoutines::unsupported报错原因:因为node.jsV17版本中最近发布的OpenSSL3.0,而OpenSSL3.0对允许算法和密钥大小增加了严格的......
  • ABAP:MM01/MM02/MM03物料主数据增强
    1.屏幕增强-在主表中附加结构(判断数据的主表,如MARA,MARC)增强字段数据元素勾选更改文档以后,会记录字段变更历史 -SPRO-->物流-常规-->物料主数据-->配置物料主记录-->创建定制子屏幕的程序 会生成对应的函数组--里面会包含两个屏幕(0001,0002)这里的0001屏幕作为......
  • Codeforces Round 903 (Div. 3)
    题目链接A.按题意模拟字符串find函数if(x.find(s)==string::npos)//没找到#include<bits/stdc++.h>usingnamespacestd;#defineintlonglongconstintN=1e5+10;#defineinf0x3f3f3f3fvoidsolve(){intn,m;cin>>n>>m;stringx,s;cin>>x&g......
  • 6.Protobuf Message数据类型对应C#的数据类型
    看一段.proto文件里的Message,它们在C#里面对应的是什么类型?messagePerson{int32id=1;stringfirst_name=2//FirstNamestringlast_name=3;} Protobuf类型C#类型 doubledoublefloatfloatint32 intint64 long......
  • 做题记录:SP703 SERVICE - Mobile Service
    SERVICE-MobileService暴力设\(f_{i,a,b,c}\)表示处理完前\(i\)个任务,第一个人在\(a\)位置,第二个人在\(b\)位置,第三个人在\(c\)位置的最小代价。方程:\[f_{i,a,b,c}=\min{f_{i-1,a',b,c}+c(a,a'),f_{i-1,a,b',c}+c(b,b'),f_{i-1,......