Hibench对大数据平台CDH/HDP基准性能测试

时间：2023-11-15 15:00:55浏览次数：48

标签：测试配置文件 HDP 配置 CDH hadoop 对大 conf hibench

一、部署方式

1.1、源码/包:https://github.com/Intel-bigdata/HiBench

部署方法：

https://github.com/Intel-bigdata/HiBench/blob/master/docs/build-hibench.md

注意：hibench执行需hadoop客户端jar包环境

如何使用HiBench进行基准测试说明：
https://cloud.tencent.com/developer/article/1158310

二、目录/文件简介

主要介绍下bin执行文件目录和conf配置文件目录。

·2.1配置文件目录--conf

benchmarks.lst 配置需测试项

frameworks.lst 配置测试hadoop或spark

hibench.conf 配置数据量级别及文件数等

hadoop.conf hadoop home、master等配置项

spark.conf spark home、master、 Yarn运行核数、内存等配置项

workloads目录存放各种具体测试项配置文件

·2.2配置文件说明

文件名	主要用途
benchmarks.lst	主要用于配置benchmarks的模块
flink.conf.template	Flink测试的配置参数
frameworks.lst	主要用于配置HiBench支持的测试框架
gearpump.conf.template	gearpump测试相关配置文件
hadoop.conf.template	Hadoop测试相关配置文件
hibench.conf	HiBench配置文件
spark.conf.template	Spark配置文件
storm.conf.template	Strom配置文件

·2.3配置文件说明

··2.3.1. benchmarks.lst配置文件

主要用于配置benchmarks列表，配置如下，可以对不需要测试的模块进行屏蔽或者删除，在需要屏蔽在前面加“#”如下：（适用于执行run_all.sh）

··2.3.2. hadoop.conf.template配置文件

该配置文件主要用于配置Hadoop的环境，如果需要对Hadoop做benchmark测试则需要将该文件重命名为hadoop.conf。

编辑hadoop.conf文件，配置Hadoop环境，此处以CDH的目录配置为例，配置如下：

··2.3.3. spark.conf.template配置文件

主要用于配置Spark的环境及运行参数，如果需要测试Saprk框架则需要将该配置文件重命名为spark.conf。

编辑spark.conf文件，配置Spark的环境，此处以CDH的目录配置为例，配置如下：根据集群环境调整相应参数。

··2.3.4. hibench.conf配置文件

主要配置HiBench的运行参数及HiBench各个模块的home环境配置，根据需要修改相应的配置参数：

主要关注参数hibench.scale.profile、hibench.default.map.parallelism和hibench.default.shuffle.parallelism配置：

hibench.scale.profile：主要配置HiBench测试的数据规模；

hibench.default.map.parallelism：主要配置MapReduce的Mapper数量；

hibench.default.shuffle.parallelism：配置Reduce数量；

注意：

# 也是生成的文件数,DFSIOE除外

例如 hibench.default.map.parallelism 10

wordcount.conf配置数据量为10000000字节（10M），10个文件，及每个文件为1M。

三、数据规模说明

HiBench的默认数据规模有：tiny, small, large, huge, gigantic andbigdata，在这几种数据规模之外Fayson还介绍如何自己指定数据量。

·3.1DFSIOE数据规模介绍及自定义

配置文件：${hibench.home}/conf/workloads/micro/dfsioe.conf

DFSIOE测试用例通过定义读或写的文件数和文件的大小来指定测试数据量的规模，如果需要自定义测试规模则修改文件数和文件的大小即可，文件大小以MB为单位。

例如：我需要自定义一个5TB数量级的DFSIOE测试，在hibench.conf文件中hibench.scale.profile配置的是mybigdata，需要在dfsioe.conf配置文件中增加读写文件数为5120，文件大小设置为1024，具体配置如下：

hibench.dfsioe.mybigdata.read.number_of_files 5120

hibench.dfsioe.mybigdata.read.file_size 1024

hibench.dfsioe.mybigdata.write.number_of_files 5120

hibench.dfsioe.mybigdata.write.file_size 1024

读写测试的数据量均为5TB = 5120 * 1024MB

·3.2举例配置单词统计测试项数据量大小

进入/conf/workloads/micro目录下，修改wordcount.conf

注意：dfsioe单位：MB，terasort单位：kb，其他测试项单位为：字节。

四、执行文件目录--bin

方式一：

sh run_all.sh

通过在conf下文件配置好数据量及测试项，批量执行测试项测试，包含数据准备及运行。

方式二：

1、具体测试某一项，以单词统计举例，准备数据可进入

/bin/workloads/micro/wordcount/prepare/

执行prepare.sh

（可执行命令hadoop fs -du -h /Hibench/Wordcount 查看对应各个用例生成的测试数据及用例结果

删除测试数据：sudo -u hdfs hadoop fs -rm -r /Hibench/Wordcount）

2、运行测试，进入/bin/workloads/micro/wordcount/hadoop/ 执行run.sh

五、查看报告文件

进入/report下，查看 hibench.report，其中包含类型、执行日期和时间，数据量，主要关注：持续时间，吞吐量/秒和吞吐量/节点。

标签：测试,配置文件,HDP,配置,CDH,hadoop,对大,conf,hibench
From： https://www.cnblogs.com/zwh-Seeking/p/17833788.html

易基因： WGBS等从DNA甲基化揭示杀鲑气单胞菌灭活疫苗对大菱鲆的免疫力：抗性育种
大家好，这里是专注表观组学十余年，领跑多组学科研服务的易基因。DNA甲基化是表观遗传学中最重要的修饰之一，在免疫应答中发挥着重要作用。自引进大菱鲆（Scophthalmusmaximus，商品名：多宝鱼）以来，养殖规模不断扩大，其间各种细菌、病毒和寄生虫引起的疾病日益严重。因此，灭活疫苗以其独......
CDH集群日志清理
CDH集群日志清理一、查看磁盘占用情况df-h二、查看日志占用情况cdh的各种组件日志一般在/var/log目录下，因此需要关注“/”根目录，查看/var/log下使用空间较大的文件夹，并又大到小排列cd/var/log/du-s./*|sort-nr还有一个是ClouderaManagementService服......
HDPE双壁波纹管，市政排污好帮手
HDPE双壁波纹管是一种用于市政排污系统的重要设备，可以被视为市政排污的好帮手。HDPE双壁波纹管具有以下几个优点：优良的耐腐蚀性：HDPE材料具有优异的耐腐蚀性，可以抵抗各种化学物质的侵蚀，确保管道长久使用。高强度和刚度：HDPE双壁波纹管具有良好的强度和刚度，能够承受较大的外部负荷和压......
HDPE双壁波纹管材给排水系统的明星材料
随着城市化进程的不断推进，给排水系统的建设也越来越受到重视。作为给排水系统的重要组成部分，管道材料的选择和设计也显得尤为重要。其中，HDPE双壁波纹管材作为一种新型的高密度聚乙烯管道材料，在市政给排水系统中得到了广泛应用。本文将从以下几个方面对HDPE双壁波纹管材进行详细介绍......
HDPE-高密度双壁波纹管材常用的应用领域有哪些？
HDPE-高密度双壁波纹管材是一种由高密度聚乙烯制成的管材，具有特殊的波纹结构。HDPE-高密度双壁波纹管材常用的应用领域有：市政工程：可用于排水、排污管。建筑工程：用于建筑物雨水管、地下排水管、排污管、通风管。电气工程：可用于各种动力电缆的保护管公路、铁路通讯：用于通讯电缆、光缆......
cdhit-common.h:39:17: fatal error: zlib.h: No such file or directory
001、问题cd-hit编译报错如下：cdhit-common.h:39:17:fatalerror:zlib.h:Nosuchfileordirectory 002、解决方法yum-yinstallzlibzlib-devel 003、验证[[email protected]]#makeg++-fopenmp-DWITH_ZLIB-O2cdhit-common.c++-c......
Maven 引用CDH 5.4 的zookeeper时报错：Could not find artifact javax.jms:jms:jar:1.1
错误：Couldnotfindartifactjavax.jms:jms:jar:1.1incloudera由于默认5.4.0的包引用了zookeeper3.3.1版本，进而引用了log4j的某个版本，导致的报错，改为如下即可： pom：使用cloudera的源：<repositories><repository><id>cloudera</id><u......
手动装配Hadoop Cloudera CDH4.2版本
第1章概要说明41.1 Hadoop是什么?41.2 为什么选择CDH版本?41.3 集群配置环境41.4 网络结构图5第2章安装hadoop环境62.1 准备安装包62.2 默认用户组root:root62.3 卸载自带的jdk62.4 安装和配置jdk环境62.5 配置/etc/hosts62.6 配置ssh无密码登陆72.7 处理防火墙72.8......
ECC, ECDH and ECDSA
ECC椭圆加密算法ECDH：其中DH代表交换密钥的DH算法，所以这个代表是椭圆曲线实现的DHECDSA：DSA代表数字签名，所以这个代表用椭圆曲线实现的DSA其原理部分涉及了：Discrete Logarithm Problem，阿贝尔群，模运算等数学知识，我不懂，暂时没有学习。如果想深入看，可以参考如下文章：https://and......
比对大小为什么会出错
问题：254.6<254.8返回的结果为什么是False文本型数字的排序规则与数值不同，当两个数其中一个是文本型数字，另一个是数值的时候，比对大小的结果会出现偏差。判断单元格里的数字是数值还是文本型数字最直接的办法就是取消横向对齐方式，数值自动靠右对齐，文本型数字自动靠左对齐。 ......

Hibench对大数据平台CDH/HDP基准性能测试

一、部署方式