首页 > 其他分享 >hadoop权威指南

hadoop权威指南

时间:2023-09-21 09:02:35浏览次数:37  
标签:指南 HDFS 权威 Hadoop hadoop test hbase data

Hadoop权威指南

第1部分 Hadoop基础知识

第2章 关于MapReduce

MapReduce分为两个阶段,map阶段和reduce阶段。map函数是数据准备阶段,它会准备好一个键值对的数据集合,然后交由reduce函数来处理,比如进行排序、分组、聚合等操作。

MapReduce处理示例,每年全球记录的最高记录是多少?

Map阶段的处理,对一行文本进行筛选,会有输入键(文件行的偏移量),输入值(文件行的值),输出键(年份),输出值(气温)。

Shuffle阶段的处理,map函数的输出经由MapReduce框架处理后,发送到reduce函数。这个处理过程基于键来对键值对进行排序和分组。

Reduce阶段的处理,遍历整个列表并从中找出最大的读数。

 

第3章 HDFS(Hadoop分布式文件系统)

管理网络中跨多台计算机存储的文件系统叫分布式文件系统,主要应对于大数据的存储方案。Hadoop实际上是一个综合性的文件系统抽象,可以自行配置HDFS的路径。

3.1 HDFS的设计

HDFS以流式数据访问模式来存储超大文件。有如下特性:

  • 流式数据访问:为整个大数据的吞吐量而设计,而不是基于其他数据库处理小规模的数据以低时延的方式来完成。

  • HDFS的存储块默认为128M,是比较大的,其目的是一次初始化,减少寻址开销。

     

第4部分 Hadoop相关开源项目

第20章 关于hbase

20.2 概念

HBase为一个面向列的存储器,实际上它是一个面向列族的存储器。调优和存储都是在列族这个层次上进行的。

20.2.1 区域

HBase自动把表水平划分为区域(region),超过某一个设定的阈值,就会开始在不同的节点上构建区域。

20.2.2 实现

集群是基于zookeeper来进行管理的,底层会访问HDFS文件系统。

20.2.3 底层数据结构以及快的原理

LMS树,基于B+树衍生而来。借助hadoop分片同时计算,以及使用了稀疏表的方式。

20.3 安装

tar -zxf hbase-...tar.gz
export HBASE_HOME=/workspace/app/hbase-2.5.3
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin

测试驱动

# 使用本地文件系统/tmp持久化存储数据
start-hbase.sh

# 表、数据操作
hbase shell
create 'test','data'
list
put 'test','row1','data:1','value1'
put 'test','row2','data:2','value2'
put 'test','row3','data:3','value3'
get 'test','row1'
scan 'test'
# 删除表
disable 'test'
drop 'test'

# 气象统计
create 'stations',{NAME=>'info'}
create 'observations',{NAME=>'data'}

 

 

附录

版本兼容问题

从代码中可以看出,书中的hadoop是基于2.5.1与hadoop的0.98.7来使用的。参考链接http://archive.apache.org/dist/

执行代码

  • 使用export导出至环境变量。

  • 导入到lib的方式。

  • 对于高版本的hadoop执行:hadoop jar hadoop-examples.jar MaxTemperature input/ncdc/sample.txt output。

# 递归查询文件夹的字符
find ./ | xargs grep -ri "lanqiu"
 

标签:指南,HDFS,权威,Hadoop,hadoop,test,hbase,data
From: https://www.cnblogs.com/gendway/p/17719036.html

相关文章

  • 《Web性能权威指南》高清高质量PDF电子书+源码
    前言阅读第一部分网络技术概览阅读第1章延迟与带宽阅读第2章TCP的构成第3章UDP的构成第4章传输层安全(TLS)第二部分无线网络性能第5章无线网络概览第6章Wi-Fi第7章移动网络第8章移动网络的优化建议第三部分HTTP第9章HTTP简史第10章Web性能要点第11章HTTP......
  • 2022完整iOS APP发布App Store上架流程指南
    如果你是新手,将在这里清晰发布到AppStore整个上架流程,还有相应的流程解决方案。如果你上架过iOSAPP,这里会了解到有更快捷的上架过程。上架iOS最基本需要一个付费的开发者账号,还没有的话申请一个或者借用。通常也还需要一台Mac电脑,不过这里介绍到不用Mac在Windows系统中直接发......
  • hadoop中mapred.tasktracker.map.tasks.maximum的设置
    目前,我们邮件的一部分log已经迁移到Hadoop集群上并由Hive来执行相关的查询hadoop中默认的mapred.tasktracker.map.tasks.maximum设置是2也即:每一个tasktracker同时运行的map任务数为2照此默认设置,查询80天某用户的操作日志,耗时5mins,45sec经过测试,发现将mapred.tasktracker.map.ta......
  • Hadoop集群的NameNode的备份
    Hadoop集群中,NameNode节点存储着HDFS上所有文件和目录的元数据信息如果NameNode挂了,也就意味着整个Hadoop集群也就完了所以,NameNode节点的备份很重要,可以从以下2个方面来备份NameNode节点1.在hdfs-site.xml中,配置多个name的dir到不同的磁盘分区上:<property>   <name>dfs.name.......
  • Hadoop集群中增加新节点
    向一个正在运行的Hadoop集群中增加几个新的Nodes1.新节点上部署java/hadoop程序,配置相应的环境变量2.新节点上增加用户,从master上拷贝id_rsa.pub并配置authorized_keys3.新节点上设置host,需要有集群中各节点的host对应4.新节点上建立相关的目录,并修改属主5.master的slaves文件......
  • Hadoop集群上使用Lzo压缩
    自从Hadoop集群搭建以来,我们一直使用的是Gzip进行压缩当时,我对gzip压缩过的文件和原始的log文件分别跑MapReduce测试,最终执行速度基本差不多而且Hadoop原生支持Gzip解压,所以,当时就直接采用了Gzip压缩的方式关于Lzo压缩,twitter有一篇文章,介绍的比较详细,见这里:Lzo压缩相比Gzip压缩,有......
  • WebAssembly实践指南——C++和Rust通过wasmtime实现相互调用实例
    C++和Rust通过wasmtime实现相互调用实例1wasmtime介绍wasmtime是一个可以运行WebAssembly代码的运行时环境。WebAssembly是一种可移植的二进制指令集格式,其本身与平台无关,类似于Java的class文件字节码。WebAssembly本来的设计初衷是想让浏览器可以运行C语言这种编译型语言的......
  • 软件功能测报告包括哪些内容?权威的测试报告如何申请?
    功能测试报告是在软件功能测试完成后生成的一份详细报告,用于记录测试过程中发现的缺陷、测试结果以及对应的修复情况。一、功能测试报告中包括的内容1、测试概要:对测试规则、测试目标和测试范围进行概括性描述。2、测试环境:记录被测软件所运行的硬件和软件环境。......
  • 好物周刊 #1:提示工程师养成指南
    一、项目1.ddrun后端采用midway3.0,后台采用nuxt2.x,小程序采用uniapp实现的一套跑腿下单接单系统。适用于校园、社区、城市等场景,可提供打印服务、跑腿服务、搬家服务、清洁服务、维修服务、活动组织、快递代取、代买代送、软件安装、陪玩陪练等服务。2.tiny-vueTinyVu......
  • 【搞钱指南】
    如何快速赚钱?如果你正在寻找一种快速赚钱的方法,那么这篇文章会提供一些有用的建议。首先,要记住,快速赚钱并不容易,但是有一些方法可以帮助你迅速增加收入。以下是一些快速赚钱的方法:找一份高回报的短期工作有时候,你需要在短时间内赚钱,可能是因为你有紧急的开支或者你要进行一些......