hadoop权威指南

时间：2023-09-21 09:02:35浏览次数：37

标签：指南 HDFS 权威 Hadoop hadoop test hbase data

Hadoop权威指南

第1部分 Hadoop基础知识

第2章关于MapReduce

MapReduce分为两个阶段，map阶段和reduce阶段。map函数是数据准备阶段，它会准备好一个键值对的数据集合，然后交由reduce函数来处理，比如进行排序、分组、聚合等操作。

MapReduce处理示例，每年全球记录的最高记录是多少？

Map阶段的处理，对一行文本进行筛选，会有输入键（文件行的偏移量），输入值（文件行的值），输出键（年份），输出值（气温）。

Shuffle阶段的处理，map函数的输出经由MapReduce框架处理后，发送到reduce函数。这个处理过程基于键来对键值对进行排序和分组。

Reduce阶段的处理，遍历整个列表并从中找出最大的读数。

第3章 HDFS（Hadoop分布式文件系统）

管理网络中跨多台计算机存储的文件系统叫分布式文件系统，主要应对于大数据的存储方案。Hadoop实际上是一个综合性的文件系统抽象，可以自行配置HDFS的路径。

3.1 HDFS的设计

HDFS以流式数据访问模式来存储超大文件。有如下特性：

流式数据访问：为整个大数据的吞吐量而设计，而不是基于其他数据库处理小规模的数据以低时延的方式来完成。
HDFS的存储块默认为128M，是比较大的，其目的是一次初始化，减少寻址开销。

第4部分 Hadoop相关开源项目

第20章关于hbase

20.2 概念

HBase为一个面向列的存储器，实际上它是一个面向列族的存储器。调优和存储都是在列族这个层次上进行的。

20.2.1 区域

HBase自动把表水平划分为区域(region)，超过某一个设定的阈值，就会开始在不同的节点上构建区域。

20.2.2 实现

集群是基于zookeeper来进行管理的，底层会访问HDFS文件系统。

20.2.3 底层数据结构以及快的原理

LMS树，基于B+树衍生而来。借助hadoop分片同时计算，以及使用了稀疏表的方式。

20.3 安装

tar -zxf hbase-...tar.gz
export HBASE_HOME=/workspace/app/hbase-2.5.3
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin

测试驱动

# 使用本地文件系统/tmp持久化存储数据
start-hbase.sh

# 表、数据操作
hbase shell
create 'test','data'
list
put 'test','row1','data:1','value1'
put 'test','row2','data:2','value2'
put 'test','row3','data:3','value3'
get 'test','row1'
scan 'test'
# 删除表
disable 'test'
drop 'test'

# 气象统计
create 'stations',{NAME=>'info'}
create 'observations',{NAME=>'data'}

附录

版本兼容问题

从代码中可以看出，书中的hadoop是基于2.5.1与hadoop的0.98.7来使用的。参考链接http://archive.apache.org/dist/。

执行代码

使用export导出至环境变量。
导入到lib的方式。
对于高版本的hadoop执行：hadoop jar hadoop-examples.jar MaxTemperature input/ncdc/sample.txt output。

# 递归查询文件夹的字符
find ./ | xargs grep -ri "lanqiu"

标签：指南,HDFS,权威,Hadoop,hadoop,test,hbase,data
From： https://www.cnblogs.com/gendway/p/17719036.html

《Web性能权威指南》高清高质量PDF电子书+源码
前言阅读第一部分网络技术概览阅读第1章延迟与带宽阅读第2章TCP的构成第3章UDP的构成第4章传输层安全（TLS）第二部分无线网络性能第5章无线网络概览第6章Wi-Fi第7章移动网络第8章移动网络的优化建议第三部分HTTP第9章HTTP简史第10章Web性能要点第11章HTTP......
2022完整iOS APP发布App Store上架流程指南
如果你是新手，将在这里清晰发布到AppStore整个上架流程，还有相应的流程解决方案。如果你上架过iOSAPP，这里会了解到有更快捷的上架过程。上架iOS最基本需要一个付费的开发者账号，还没有的话申请一个或者借用。通常也还需要一台Mac电脑，不过这里介绍到不用Mac在Windows系统中直接发......
hadoop中mapred.tasktracker.map.tasks.maximum的设置
目前，我们邮件的一部分log已经迁移到Hadoop集群上并由Hive来执行相关的查询hadoop中默认的mapred.tasktracker.map.tasks.maximum设置是2也即：每一个tasktracker同时运行的map任务数为2照此默认设置，查询80天某用户的操作日志，耗时5mins,45sec经过测试，发现将mapred.tasktracker.map.ta......
Hadoop集群的NameNode的备份
Hadoop集群中，NameNode节点存储着HDFS上所有文件和目录的元数据信息如果NameNode挂了，也就意味着整个Hadoop集群也就完了所以，NameNode节点的备份很重要，可以从以下2个方面来备份NameNode节点1.在hdfs-site.xml中，配置多个name的dir到不同的磁盘分区上：<property> <name>dfs.name.......
Hadoop集群中增加新节点
向一个正在运行的Hadoop集群中增加几个新的Nodes1.新节点上部署java/hadoop程序，配置相应的环境变量2.新节点上增加用户，从master上拷贝id_rsa.pub并配置authorized_keys3.新节点上设置host，需要有集群中各节点的host对应4.新节点上建立相关的目录，并修改属主5.master的slaves文件......
Hadoop集群上使用Lzo压缩
自从Hadoop集群搭建以来，我们一直使用的是Gzip进行压缩当时，我对gzip压缩过的文件和原始的log文件分别跑MapReduce测试，最终执行速度基本差不多而且Hadoop原生支持Gzip解压，所以，当时就直接采用了Gzip压缩的方式关于Lzo压缩，twitter有一篇文章，介绍的比较详细，见这里：Lzo压缩相比Gzip压缩，有......
WebAssembly实践指南——C++和Rust通过wasmtime实现相互调用实例
C++和Rust通过wasmtime实现相互调用实例1wasmtime介绍wasmtime是一个可以运行WebAssembly代码的运行时环境。WebAssembly是一种可移植的二进制指令集格式，其本身与平台无关，类似于Java的class文件字节码。WebAssembly本来的设计初衷是想让浏览器可以运行C语言这种编译型语言的......
软件功能测报告包括哪些内容?权威的测试报告如何申请？
功能测试报告是在软件功能测试完成后生成的一份详细报告，用于记录测试过程中发现的缺陷、测试结果以及对应的修复情况。一、功能测试报告中包括的内容1、测试概要：对测试规则、测试目标和测试范围进行概括性描述。2、测试环境：记录被测软件所运行的硬件和软件环境。......
好物周刊 #1：提示工程师养成指南
一、项目1.ddrun后端采用midway3.0，后台采用nuxt2.x，小程序采用uniapp实现的一套跑腿下单接单系统。适用于校园、社区、城市等场景，可提供打印服务、跑腿服务、搬家服务、清洁服务、维修服务、活动组织、快递代取、代买代送、软件安装、陪玩陪练等服务。2.tiny-vueTinyVu......
【搞钱指南】
如何快速赚钱？如果你正在寻找一种快速赚钱的方法，那么这篇文章会提供一些有用的建议。首先，要记住，快速赚钱并不容易，但是有一些方法可以帮助你迅速增加收入。以下是一些快速赚钱的方法：找一份高回报的短期工作有时候，你需要在短时间内赚钱，可能是因为你有紧急的开支或者你要进行一些......

hadoop权威指南

Hadoop权威指南

第1部分 Hadoop基础知识

第2章关于MapReduce

第3章 HDFS（Hadoop分布式文件系统）

3.1 HDFS的设计

第4部分 Hadoop相关开源项目

第20章关于hbase

20.2 概念

20.2.1 区域

20.2.2 实现

20.2.3 底层数据结构以及快的原理

20.3 安装

测试驱动

附录

版本兼容问题

执行代码

相关文章

赞助商

阅读排行

hadoop权威指南

Hadoop权威指南

第1部分 Hadoop基础知识

第2章 关于MapReduce

第3章 HDFS（Hadoop分布式文件系统）

3.1 HDFS的设计

第4部分 Hadoop相关开源项目

第20章 关于hbase

20.2 概念

20.2.1 区域

20.2.2 实现

20.2.3 底层数据结构以及快的原理

20.3 安装

测试驱动

附录

版本兼容问题

执行代码

相关文章

赞助商

阅读排行

第2章关于MapReduce

第20章关于hbase