首页 > 其他分享 >Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述

时间:2023-04-06 12:31:37浏览次数:43  
标签:Hadoop site etc 集群 Apache 概述 hadoop 安装包


Hadoop离线是大数据生态圈的核心与基石,是整个大数据开发的入门。本次分享内容让初学者能高效、快捷掌握Hadoop必备知识,大大缩短Hadoop离线阶段学习时间,下面一起开始今天的学习!


一、Hadoop集群简介

Hadoop集群整体概述

  • Hadoop集群包括两个集群:  HDFS集群、YARN集群
  • 两个集群逻辑上分离、通常物理上在一起
  • 两个集群都是标准的主从架构集群

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_Hadoop

Hadoop集群简介

Hadoop集群=HDFS集群+YARN集群

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_hadoop_02

  • 逻辑上分离

两个集群互相之间没有依赖、互不影响

  • 物理上在一起

某些角色进程往往部署在同一台物理服务器上

  • MapReduce集群呢?

MapReduce是计算框架、代码层面的组件 没有集群之说

二、Hadoop集群模式安装(Cluster mode)

Hadoop源码编译

  • 安装包、源码包下载地址

https://archive.apache.org/dist/hadoop/common/hadoop-3.3.0/

  • 为什么要重新编译Hadoop源码?

匹配不同操作系统本地库环境,  Hadoop某些操作比如压缩、  IO需要调用系统本地库(*.so|*.dll)
修改源码、重构源码。

  •   如何编译Hadoop

源码包根目录下文件:  BUILDING.txt 详细步骤参考附件资料

  •     课程提供编译好的Hadoop安装包

hadoop-3.3.0-Centos7-64-with-snappy.tar.gz

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_xml_03

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_hadoop_04

Step1:集群角色规划

  • 角色规划的准则

根据软件工作特性和服务器硬件资源情况合理分配

比如依赖内存工作的NameNode是不是部署在大内存机器上?

  • 角色规划注意事项

资源上有抢夺冲突的,尽量不要部署在一起

工作上需要互相配合的。尽量部署在一起

Step2:服务器基础环境准备

  • 主机名(3台机器)

vim /etc/hostname

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_xml_05

  •  Hosts映射(3台机器)

vim /etc/hosts

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_Hadoop_06

  • 防火墙关闭(3台机器)

systemctl stop firewalld.service   #关闭防火墙
systemctl disable firewalld.service #禁止防火墙开启自启

  •     ssh免密登录(node1执行- >node1|node2|node3)

ssh-keygen #4个回车 生成公钥、私钥
ssh-copy-id node1、ssh-copy-id node2、ssh-copy-id node3 #

  • 集群时间同步(3台机器)

yum -y install ntpdate
ntpdate ntp4.aliyun.com

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_apache_07

  • 创建统一工作目录(3台机器)

mkdir -p /export/server/ #软件安装路径
mkdir -p /export/data/ #数据存储路径
mkdir -p /export/software/  #安装包存放路径 

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_hadoop_08

 Step3:上传安装包、解压安装包

  • JDK 1.8安装(3台机器)
     

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_apache_09

  • 上传、解压Hadoop安装包(node1) 

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_大数据_10

 Step4:Hadoop安装包目录结构

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_xml_11

 配置文件概述

  官网文档:  https://hadoop.apache.org/docs/r3.3.0/
    第一类1个:  hadoop-env.sh
    第二类4个:  xxxx-site.xml ,site表示的是用户定义的配置,会覆盖default中的默认配置。
core-site.xml  核心模块配置
hdfs-site.xml  hdfs文件系统模块配置
mapred-site.xml  MapReduce模块配置
yarn-site.xml yarn模块配置
    第三类1个:  workers
    所有的配置文件目录:  /export/server/hadoop-3.3.0/etc/hadoop

Step5:编辑Hadoop配置文件(1)

hadoop-env.sh

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_xml_12

Step5:编辑Hadoop配置文件(2)

core-site.xml

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_hadoop_13

Step5:编辑Hadoop配置文件(3)

hdfs-site.xml

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_Hadoop_14

Step5:编辑Hadoop配置文件(4)

mapred-site.xml

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_hadoop_15

Step5:编辑Hadoop配置文件(5)

yarn-site.xml

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_hadoop_16

Step5:编辑Hadoop配置文件(6) 

workers

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_hadoop_17

Step6:分发同步安装包 

在node1机器上将Hadoop安装包scp同步到其他机器

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_apache_18

 Step7:配置Hadoop环境变量

  •     在node1上配置Hadoop环境变量

vim /etc/profile
export HADOOP_HOME=/export/server/hadoop-3.3.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

  •     将修改后的环境变量同步其他机器

scp /etc/profile root@node2:/etc/
scp /etc/profile root@node3:/etc/

  •     重新加载环境变量 验证是否生效(3台机器)

source /etc/profile
hadoop #验证环境变量是否生效

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_大数据_19

Step8:NameNode format  (格式化操作)

    首次启动HDFS时,必须对其进行格式化操作。
    format本质上是初始化工作,进行HDFS清理和准备工作
    命令:hdfs namenode -format

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_apache_20

 

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_大数据_21

 三、Hadoop集群启停命令、  Web UI

手动逐个进程启停

  • 每台机器上每次手动启动关闭一个角色进程,可以精准控制每个进程启停,避免群起群停。
  • HDFS集群

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_xml_22

  •   YARN集群

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_hadoop_23

 shell脚本一键启停

    在node1上,使用软件自带的shell脚本一键启动。前提:  配置好机器之间的SSH免密登录和workers文件。

  •     HDFS集群

start-dfs.sh
stop-dfs.sh

  •     YARN集群

start-yarn.sh
stop-yarn.sh

  • Hadoop集群

start-all.sh
stop-all.sh

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_Hadoop_24

进程状态、日志查看

  •     启动完毕之后可以使用jps命令查看进程是否启动成功

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_Hadoop_25

  •  Hadoop启动日志路径:  /export/server/hadoop-3.3.0/logs/

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_Hadoop_26

HDFS集群

地址:  http://namenode_host:9870

其中namenode_host是namenode运行所在机器的主机名或者ip
如果使用主机名访问,别忘了在Windows配置hosts

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_xml_27

  • HDFS文件系统Web页面浏览

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_xml_28

YARN集群

地址:  http://resourcemanager_host:8088
其中resourcemanager_host是resourcemanager运行所在机器的主机名或者ip
如果使用主机名访问,别忘了在Windows配置hosts

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_apache_29

 四、Hadoop初体验

HDFS 初体验

    shell命令操作
hadoop fs -mkdir /itcast
hadoop fs -put zookeeper.out /itcast
hadoop fs -ls /
    Web UI页面操作

 

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_apache_30

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_hadoop_31

MapReduce+YARN 初体验

执行Hadoop官方自带的MapReduce案例,  评估圆周率π的值。

Hadoop技术之Apache Hadoop集群搭建Apache Hadoop概述_hadoop_32

标签:Hadoop,site,etc,集群,Apache,概述,hadoop,安装包
From: https://blog.51cto.com/u_8238263/6170351

相关文章

  • org.apache.shiro.session.InvalidSessionException: java.lang.I
    1.遇到以下异常,找了好长时间,终于解决,报的异常如下:七月07,20173:02:16下午org.apache.catalina.core.StandardWrapperValveinvoke严重:Servlet.service()forservlet[SpringMVC]incontextwithpath[/IMP]threwexception[org.apache.shiro.session.InvalidSessionEx......
  • HTTPS协议概述&HTTPS使用成本&HTTPS对性能的影响&HTTPS常见问题
    HTTPS协议概述 HTTPS可以认为是HTTP+TLSTLS是传输层加密协议,它的前身是SSL协议  HTTPS功能介绍内容加密1、非对称密匙交换2、对称内容加密身份认证1、数字证书数据完整性HTTPS使用成本证书费用以及更新维护HTTPS降低用户访问速度消耗CPU资源,需要增加大量......
  • EasyMR 安全架构揭秘:如何管理 Hadoop 数据安全
    2017年,美国信用评级机构Equifax遭受黑客攻击,导致1.4亿个人的敏感信息泄露;2020年,发生了SolarWinds公司的软件供应链遭受恶意代码攻击事件,涉及多个行业和国家;2022年,网信办依据《数据安全法》等法律法规,对滴滴公司开出人民币80.26亿元的巨额罚款,对互联网企业敲响数据安全警钟。......
  • C语言概述
    C语言概述简单的C程序示例#include<stdio.h>intmain(){ intnum;//声明 num=2; printf("这是第%d章。",num); return0;}这是一个简单的C程序其输出:这是第2章。概要#include<stdio.h>意为包含stdio.h文件输入/输出头文件,把stdio.h文件所以内容都输入该行所在位置。......
  • Apache
       ......
  • Hadoop搭建(集群)
    core-site.xmlhadoop.tmp.dir/opt/hadoop/tmpfs.defaultFShdfs://master:9000hdfs-site.xmlhadoop.namenode.name.dir/opt/hadoop/dfs/namehadoop.datanode.data.dir/opt/hadoop/dfs/datadfs.replication2dfs.permissionsfalse......
  • Hadoop、Hive和Spark的关系
    大数据技术生态中,Hadoop、Hive、Spark是什么关系?|通俗易懂科普向Hadoop、Hive和Spark,都是大数据相关的系统和技术。大数据也是数据管理系统的范畴。数据管理系统涉及两个方面的问题,一个是数据怎么存储?一个是数据怎么计算?为了方便理解,我们需要从单机的时代来讲解。在单机的数......
  • DOM概述&Element对象获取与使用
    概述Document Object Model文档对象模型将标记语言的各个组成部分封装为对象JavaScript 通过DOM,就能够对HTML进行操作了Document:整个文档对象Element:元素对象Attribute:属性对象Text: 文本对象Comment:注释对象改变HTML元素的内容改变HTML元素的样式(CSS)对H......
  • 6·2HTTPS协议概述|6·32HTTPS使用成本|6·42HTTPS对性能的影响|6·52HTTPS常见问题
    HTTPS可以认为是HTTPS+TLSTLS是传输层加密协议,它的前身是SSL协议HTTPS功能介绍 内容加密 非对称密钥交换 对称内容加密 身份认证 数字证书 数据完整性 HTTPS使用成本 证书费用以及更新维护 HT......
  • apache-DBUtils 工具类
    用于查询多行多列的数据packagecom.jdbc.DBUtils;importcom.JDBC_Utils.JDBCUtilsByDruid;importcom.JDBC_Utils.News;importorg.apache.commons.dbutils.QueryRunner;importorg.apache.commons.dbutils.handlers.BeanHandler;importorg.apache.commons.dbutils.hand......