轻松应对亿级数据，HBase Scan读取速度翻倍！

时间：2023-04-13 15:00:42浏览次数：53

标签：缓存 scanner scan Scan 扫描设置亿级 HBase

HBase是一种基于Hadoop的分布式列存储数据库，它支持大规模结构化数据的存储和随机访问。

在HBase中，扫描（Scan）是一种读取表中数据的方式，它可以返回表中满足条件的一部分或全部数据。本文将介绍HBase中扫描的概念、使用方法和性能优化。

1 扫描的概念

扫描是一种读取表中数据的方式，它可以按照一定的条件过滤出表中符合条件的一部分或全部数据，并返回给用户。HBase中的扫描是基于rowkey的顺序扫描，可以通过设置startRow和stopRow来限制扫描的范围，还可以设置过滤器来进一步过滤数据。

2 扫描的使用

在HBase中，扫描可以通过HBase Shell、Java API和REST API等方式进行操作。下面以Java API为例介绍扫描的使用。

2.1 创建扫描对象

// 创建一个Scan对象用于设置扫描的参数
 Scan scan = new Scan();

2.2 设置扫描的范围

scan.setStartRow(Bytes.toBytes("startRow"));
 scan.setStopRow(Bytes.toBytes("stopRow"));

设置扫描的起始行和结束行，可通过Bytes.toBytes方法将字符串转换为字节数组。

设置过滤器

Filter filter = new SingleColumnValueFilter(Bytes.toBytes("cf"), Bytes.toBytes("col"), CompareOperator.EQUAL, Bytes.toBytes("value"));
 scan.setFilter(filter);

设置过滤器，可以通过SingleColumnValueFilter等过滤器来过滤数据。

执行扫描

ResultScanner scanner = table.getScanner(scan);
 for (Result result : scanner) {
     // 处理扫描结果
 }
 scanner.close();

执行扫描并遍历结果，可以通过ResultScanner获取扫描结果，并通过for循环遍历结果。最后记得关闭ResultScanner。

3 扫描的性能优化

3.1 设置缓存和批量大小

scan.setCaching(100);
 scan.setBatch(10);

设置扫描的缓存大小和批量大小，可以有效地减少RPC调用次数，提高扫描的性能。

3.2 避免全表扫描

全表扫描是非常消耗资源的，因此应该尽可能避免全表扫描。

可通过设置扫描的范围和过滤器等方式来限制扫描的范围，避免全表扫描。

3.3 使用扫描缓存

scan.setScanMetricsEnabled(true);

设置扫描缓存，可以获取扫描的性能指标，如扫描的时间、扫描的行数等。通过这些指标可以优化扫描的性能，例如调整缓存大小、批量大小等。

使用扫描缓存可以有效地提高扫描的性能，因为它可以减少RPC调用次数，从而降低了网络开销和延迟。在HBase中，扫描缓存是通过设置scan.setCaching()方法来实现的。

设置扫描缓存大小

scan.setCaching(100);

设置扫描缓存大小，可以控制每次RPC调用返回的行数。缓存大小越大，网络开销就越小，但是内存开销就越大。通常情况下，扫描缓存大小的设置应该在100到1000之间，根据具体情况来调整。

3.4 设置批量大小

scan.setBatch(10);

设置批量大小，可以控制每次RPC调用的数据量。批量大小越大，网络开销就越小，但是RPC调用的延迟就越大。通常情况下，批量大小的设置应该在5到10之间，根据具体情况来调整。

3.5 获取扫描指标

scan.setScanMetricsEnabled(true);

设置扫描指标，可以获取扫描的性能指标，如扫描的时间、扫描的行数等。通过这些指标可以优化扫描的性能，例如调整缓存大小、批量大小等。

ScanResultCache resultCache = new ScanResultCache(cacheSize);
 ResultScanner scanner = table.getScanner(scan);
 List<Result> results = resultCache.cache(scanner);
 for (Result result : results) {
     // 处理扫描结果
 }
 scanner.close();

使用ScanResultCache可以缓存扫描结果，从而减少RPC调用次数，提高扫描的性能。ScanResultCache是一个开源的扫描缓存库，可以在GitHub上找到。

3.6 使用异步扫描

异步扫描可以提高扫描的并发度，从而提高扫描的性能。可以通过使用CompletableFuture等方式来实现异步扫描。

CompletableFuture<Void> future = CompletableFuture.runAsync(() -> {
     try {
         ResultScanner scanner = table.getScanner(scan);
         for (Result result : scanner) {
             // 处理扫描结果
         }
         scanner.close();
     } catch (IOException e) {
         e.printStackTrace();
     }
 });
 future.join();

使用CompletableFuture实现异步扫描，可以在主线程中启动异步任务，并在异步任务执行完毕后等待结果。

4 总结

本文介绍了HBase中扫描的概念、使用方法和性能优化。扫描是HBase中常见的数据读取方式，通过设置扫描的参数、过滤器等方式可以实现灵活的数据查询。在实际应用中，我们需要根据数据的特点和查询需求来选择合适的扫描方法，并结合缓存、批量处理、异步等方式来优化扫描的性能。

标签：缓存,scanner,scan,Scan,扫描,设置,亿级,HBase
From： https://blog.51cto.com/u_11440114/6188017

UVa 112 Tree Summing (scanf()去空格&递归&二叉树遍历)
112-TreeSummingTimelimit:3.000secondshttp://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&page=show_problem&problem=48BackgroundLISPwasoneoftheearliesthigh-levelprogramminglanguagesand,withFORTRAN,isoneoft......
Redis scan等命令的学习与研究
Redisscan等命令的学习与研究摘要背景跟前几天说的一个问题类似.为了验证自己的设想,所以晚上继续写脚本进行了一轮次的验证.不过上次讨论时,打击好像都没听懂我说的所以这次准备从基础开始讲起.很多好东西在上来量之后可能会变成坏东西scan命令Redis在2.8之后......
MATLAB代码：基于DBSCAN密度聚类的风电-负荷场景削减方法
MATLAB代码：基于DBSCAN密度聚类的风电-负荷场景削减方法关键词：密度聚类场景削减DBSCAN场景生成与削减kmeans 参考文档：《氢能支撑的风-燃气耦合低碳微网容量优化配置研究》第3章：完美复现仿真平台：MATLAB主要内容：代码主要做的是一个基于DBSCAN密度聚类的风电-负荷场景生成与......
power apps canvas 最新scan 扫描功能 barcode， QR code
Barcodereader现在全面代替barcode scanner barcodereader现在只能通过powerappsmobileapp或者powerappsWindowsUWPapp来使用。还不能通过浏览器使用 Barcodereader控件支持下面数据类型 barcodereader控件和scanner最大的区......
Redis性能问题诊断以及scan命令耗时分析
Redis性能问题诊断以及scan命令耗时分析摘要最近公司有项目反馈卡顿.卡顿一小时后自己被拉入群聊.同事已经基本上定位到问题原因.我这边想使用朴素的性能观点进行一下性能问题的拆解为了提高自己.用到的一些脚本echo"info"|redis-cli-p6379-aYourpassword>`da......
MongoDB、Redis、HBase、Cassandra、Elasticsearch、ClickHouse等NoSQL数据库简介及优
MongoDBMongoDB是一个基于文档的NoSQL数据库，它使用BSON（二进制JSON）格式存储数据。MongoDB支持动态查询，可以轻松地处理非结构化数据。它还支持水平扩展，可以在多个节点上分布数据。优点：灵活性高，支持非结构化数据存储。支持水平扩展，可以在多个节点上分布数据。支持动态查询，可......
HBase在进行模型设计时重点在什么地方？一张表中定义多少个Column Family最合适？为什么？
锁屏面试题百日百刷，每个工作日坚持更新面试题。请看到最后就能获取你想要的,接下来的是今日的面试题： 1.Hbase中的memstore是用来做什么的？hbase为了保证随机读取的性能，所以hfile里面的rowkey是有序的。当客户端的请求在到达regionserver之后，为了保证写入rowkey的有序性，所以......
macOS Wi-Fi Scanner and Analyzer All In One
macOSWi-FiScannerandAnalyzerAllInOnemacOSWi-Fi扫描仪和分析仪freeNmap/Zenmap网络安全/网络嗅探骇客/黑客chargeWiFiExplorersupportfor2.4GHz,5GHz,and6GHzWi-Fi!https://apps.apple.com/us/app/wifi-explorer/id494803304?mt=123-dayfree......
面试题百日百刷-HBase中HTable API有没有线程安全问题，在程序是单例还是多例？
锁屏面试题百日百刷，每个工作日坚持更新面试题。请看到最后就能获取你想要的,接下来的是今日的面试题： 1.HBase内部机制是什么？Hbase是一个能适应联机业务的数据库系统物理存储：hbase的持久化数据是将数据存储在HDFS上。存储管理：一个表是划分为很多region的，这些region分布式地......
面试题百日百刷-HBase HRegionServer宕机如何处理
锁屏面试题百日百刷，每个工作日坚持更新面试题。锁屏面试题app、小程序现已上线，官网地址：https://www.demosoftware.cn。已收录了每日更新的面试题的所有内容，还包含特色的解锁屏幕复习面试题、每日编程题目邮件推送等功能。让你在面试中先人一步!接下来的是今日的面试题： 1.HBase......