Hadoop发行版本较多,Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称CDH)收费版本通常用于生产环境,这里用开源免费的Apache Hadoop原始版本。
Hadoop基础知识可查看本专栏其它篇章:Apache Hadoop的核心组成及其架构_hadoop的核心架构是怎样-CSDN博客
环境准备
准备三台虚拟机,并安装JDK1.8,时间需要同步。
集群规划
应用 | hadoop01 | hadoop02 | hadoop03 |
---|---|---|---|
HDFS | NameNode、DataNode | DataNode | SecondaryNameNode、DataNode |
YARN | NodeManager | NodeManager | NodeManager、ResourceManager |
ntpd | ntpd | ntpd | ntpd |
主机名与域名设置
hostnamectl --static set-hostname hadoop01
修改/etc/hosts
192.168.43.101 hadoop01
192.168.43.102 hadoop02
192.168.43.103 hadoop03
ssh免密登录
在三台主机执行下面两句命令,一直回车即可,不需要输入密码,确保三台主机都可免密登录,后续使用hadoop集群批量启动脚本时会特别方便。
ssh-keygen
ssh-copy-id [email protected]
ssh-copy-id [email protected]
ssh-copy-id [email protected]
Hadoop集群安装
hadoop安装
解压安装包
tar -zxvf hadoop-2.9.2.tar.gz -C /opt/
将hadoop添加到环境变量,/etc/profile
export HADOOP_HOME=/opt/hadoop-2.9.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
使环境变量生效
source /etc/profile
验证版本
hadoop version
Hadoop目录介绍
drwxr-xr-x 2 root root 194 Nov 13 2018 bin
drwxr-xr-x 3 root root 20 Nov 13 2018 etc
drwxr-xr-x 2 root root 106 Nov 13 2018 include
drwxr-xr-x 3 root root 20 Nov 13 2018 lib
drwxr-xr-x 2 root root 239 Nov 13 2018 libexec
-rw-r--r-- 1 root root 106210 Nov 13 2018 LICENSE.txt
-rw-r--r-- 1 root root 15917 Nov 13 2018 NOTICE.txt
-rw-r--r-- 1 root root 1366 Nov 13 2018 README.txt
drwxr-xr-x 3 root root 4096 Nov 13 2018 sbin
drwxr-xr-x 4 root root 31 Nov 13 2018 share
1.bin目录:对Hadoop进行操作的相关命令,如hadoop,hdfs等
2.etc目录:Hadoop的配置文件目录,入hdfs-site.xml,core-site.xml等
3.lib目录:Hadoop本地库(解压缩的依赖)
4.sbin目录:存放的是Hadoop集群启动停止相关脚本,命令
5.share目录:Hadoop的一些jar,官方案例jar,文档等
集群配置
Hadoop集群配置 = HDFS集群配置 + MapReduce集群配置 + Yarn集群配置
HDFS集群配置
-
配置jdk路径,etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/local/jdk1.8.0_231
-
指定