HbaseRowKey的设计和热点问题

时间：2024-11-22 21:32:33浏览次数：1

标签：热点问题 region 加盐 HbaseRowKey rowkey 设计数据

1、RowKey的唯一原则

必须在设计上保证其唯一性，rowkey是按照字典顺序排序存储的，因此，设计rowkey的时候，要充分利用这个排序的特点，将经常读取的数据存储到一块，将最近可能会被访问的数据放到一块。

2、rowkey长度原则

rowkey是一个二进制码流，可以是任意字符串，最大长度 64kb ，实际应用中一般为10-100bytes，以 byte[] 形式保存，一般设计成定长。
建议越短越好，不要超过100个字节，原因如下：
1.数据的持久化文件HFile中是按照KeyValue存储的，如果rowkey过长，比如超过100字节，1000w行数据，光rowkey就要占用100*1000w=10亿个字节，将近1G数据，这样会极大影响HFile的存储效率；
2.MemStore及BlockCache将缓存部分数据到内存，如果rowkey字段过长，内存的有效利用率就会降低，系统不能缓存更多的数据，这样会降低检索效率

3、rowkey散列原则

如果rowkey按照时间戳的方式递增，不要将时间放在二进制码的前面，建议将rowkey的高位作为散列字段，由程序随机生成，低位放时间字段，这样将提高数据均衡分布在每个RegionServer，以实现负载均衡的几率。如果没有散列字段，首字段直接是时间信息，所有的数据都会集中在一个RegionServer上，这样在数据检索的时候负载会集中在个别的RegionServer上，造成热点问题，会降低查询效率。

热点问题

HBase中的行是按照rowkey的字典顺序排序的，这种设计优化了scan操作，可以将相关的行以及会被一起读取的行存取在临近位置，便于scan。然而糟糕的rowkey设计是热点的源头。热点发生在大量的client直接访问集群的一个或极少数个节点（访问可能是读，写或者其他操作）。大量访问会使热点region所在的单个机器超出自身承受能力，引起性能下降甚至region不可用，这也会影响同一个RegionServer上的其他region，主机无法服务其他region的请求。设计良好的数据访问模式以使集群被充分，均衡的利用。

为了避免写热点，设计rowkey使得不同行在同一个region，但是在更多数据情况下，数据应该被写入集群的多个region，而不是一个。

常见的避免热点的方法以及它们的优缺点：
加盐

这里所说的加盐不是密码学中的加盐，而是在rowkey的前面增加随机数，具体就是给rowkey分配一个随机前缀以使得它和之前的rowkey的开头不同。分配的前缀种类数量应该和你想使用数据分散到不同的region的数量一致。加盐之后的rowkey就会根据随机生成的前缀分散到各个region上，以避免热点。

哈希

哈希会使同一行永远用一个前缀加盐。哈希也可以使负载分散到整个集群，但是读却是可以预测的。使用确定的哈希可以让客户端重构完整的rowkey，可以使用get操作准确获取某一个行数据

反转

第三种防止热点的方法时反转固定长度或者数字格式的rowkey。这样可以使得rowkey中经常改变的部分（最没有意义的部分）放在前面。这样可以有效的随机rowkey，但是牺牲了rowkey的有序性。
反转rowkey的例子以手机号为rowkey，可以将手机号反转后的字符串作为rowkey，这样的就避免了以手机号那样比较固定开头导致热点问题

预分区

可以通过指定SPLITS_FILE的值指定分区文件,如果分区信息比较少，也可以直接用SPLITS分区。create 'split_table_test', 'cf',

标签：热点问题,region,加盐,HbaseRowKey,rowkey,设计,数据
From： https://www.cnblogs.com/w-ll/p/18563764

【计算机毕业设计选题】最新毕设选题----基于微信小程序的校园心理咨询服务系统的设计
博主介绍：原计算机互联网大厂开发，十年开发经验,带领技术团队几十名，专注技术开发，计算机毕设实战导师，专注Java、Python、小程序、安卓、深度学习和算法开发研究。主要服务内容：选题定题、开题报告、任务书、程序开发、文档编写和辅导、文档降重、程序讲解、答辩辅导等，欢迎咨询~......
计算机毕业设计推荐】基于SpringBoot+Vue的甜品店管理系统的设计与实现【附源码+数据
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程......
【计算机毕业设计选题推荐】基于springboot+vue的实践性教学系统的设计与实现【附源
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程......
缓存与主副本数据一致性系统设计方案（下篇）
声明：为力求内容的准确性，为大家提供更优质的技术内容。如果您发现文章内容中任何不准确或遗漏的部分。非常希望您能评论指正，我将尽快修正疏漏。在上篇中我们整理分析了Cache-Aside模式中数据读取与变更的实现方式。提及数据变更场景下存在更新主副本数据后删除缓存和更新主......
微信小程序毕业设计论文范文_小程序开发毕业论文模板本科计算机毕业论文范文
文章目录前言微信小程序毕业设计论文范文论文目录论文绪论论文系统设计论文总体设计论文数据设计论文致谢为什么选择我更多毕设系统作品演示视频可看这里数据库+源码获取微信小程序毕业设计选题和毕业论文怎么写,答辩流程是怎样的?今天就给大家介绍下小程序开发......
2024-2025-1 20241401 《计算机基础与程序设计》第九周学习总结
班级链接2024计算机基础与程序设计作业要求第九周作业作业目标①操作系统责任②内存与进程管理③分时系统④CPU调度⑤文件、文件系统⑥文件保护⑦磁盘调度教材学习内容总结《计算机科学概论》第10、11章第10章操作系统定义：操作系统（OS）是具有操作硬件......
【C++篇】深度解析 C++ List 容器：底层设计与实现揭秘
文章目录须知......
[2006]基于JAVA的洗衣店会员管理系统的设计与实现
毕业设计（论文）开题报告表姓名学院专业班级题目基于JAVA的洗衣店会员管理系统的设计与实现指导老师（一）选题的背景和意义选题背景与意义：随着社会经济的快速发展和生活节奏的不断加快，洗衣服务行业作为日常生活服务的重要组成部分，其信息化、智能化管理水平直接影响着顾客体......
[2005]基于JAVA的洗浴智慧管理系统的设计与实现
毕业设计（论文）开题报告表姓名学院专业班级题目基于JAVA的洗浴智慧管理系统的设计与实现指导老师（一）选题的背景和意义背景：随着信息技术的飞速发展和大数据时代的来临，各行各业都在积极推进信息化建设，以提高管理效率和服务质量。在休闲服务业中，洗浴中心作为一种常见的大众......
【C#设计模式(14)——责任链模式( Chain-of-responsibility Pattern)】
前言责任链模式通过将请求和处理者解耦，关联多个处理者形成一个链条，使每个处理者都有机会处理请求，避免了将所有处理逻辑集中在一个对象中的复杂性。代码//请求者publicclassRequestor{privatestringcontent;publicstringContent{get{returncontent......

HbaseRowKey的设计和热点问题

相关文章

赞助商

阅读排行