首页 > 其他分享 >Apache Hadoop完全分布式集群搭建指南

Apache Hadoop完全分布式集群搭建指南

时间:2024-07-04 13:28:23浏览次数:25  
标签:13 hadoop Hadoop 2018 Apache Nov root 分布式

Hadoop发行版本较多,Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称CDH)收费版本通常用于生产环境,这里用开源免费的Apache Hadoop原始版本。

下载:Apache Hadoop

版本下载:Index of /hadoop/common

Hadoop基础知识可查看本专栏其它篇章:Apache Hadoop的核心组成及其架构_hadoop的核心架构是怎样-CSDN博客

环境准备

准备三台虚拟机,并安装JDK1.8,时间需要同步。

集群规划

应用 hadoop01 hadoop02 hadoop03
HDFS NameNode、DataNode DataNode SecondaryNameNode、DataNode
YARN NodeManager NodeManager NodeManager、ResourceManager
ntpd ntpd ntpd ntpd

主机名与域名设置

hostnamectl  --static set-hostname hadoop01

修改/etc/hosts

192.168.43.101 hadoop01
192.168.43.102 hadoop02
192.168.43.103 hadoop03

ssh免密登录

在三台主机执行下面两句命令,一直回车即可,不需要输入密码,确保三台主机都可免密登录,后续使用hadoop集群批量启动脚本时会特别方便。

ssh-keygen
ssh-copy-id [email protected]
ssh-copy-id [email protected]
ssh-copy-id [email protected]

Hadoop集群安装

hadoop安装

解压安装包

tar -zxvf hadoop-2.9.2.tar.gz -C /opt/

将hadoop添加到环境变量,/etc/profile

export HADOOP_HOME=/opt/hadoop-2.9.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

使环境变量生效

source /etc/profile

验证版本

hadoop version

Hadoop目录介绍

drwxr-xr-x 2 root root    194 Nov 13  2018 bin
drwxr-xr-x 3 root root     20 Nov 13  2018 etc
drwxr-xr-x 2 root root    106 Nov 13  2018 include
drwxr-xr-x 3 root root     20 Nov 13  2018 lib
drwxr-xr-x 2 root root    239 Nov 13  2018 libexec
-rw-r--r-- 1 root root 106210 Nov 13  2018 LICENSE.txt
-rw-r--r-- 1 root root  15917 Nov 13  2018 NOTICE.txt
-rw-r--r-- 1 root root   1366 Nov 13  2018 README.txt
drwxr-xr-x 3 root root   4096 Nov 13  2018 sbin
drwxr-xr-x 4 root root     31 Nov 13  2018 share
​
1.bin目录:对Hadoop进行操作的相关命令,如hadoop,hdfs等
2.etc目录:Hadoop的配置文件目录,入hdfs-site.xml,core-site.xml等
3.lib目录:Hadoop本地库(解压缩的依赖)
4.sbin目录:存放的是Hadoop集群启动停止相关脚本,命令
5.share目录:Hadoop的一些jar,官方案例jar,文档等

集群配置

Hadoop集群配置 = HDFS集群配置 + MapReduce集群配置 + Yarn集群配置

HDFS集群配置
  • 配置jdk路径,etc/hadoop/hadoop-env.sh

    export JAVA_HOME=/usr/local/jdk1.8.0_231

  • 指定

标签:13,hadoop,Hadoop,2018,Apache,Nov,root,分布式
From: https://blog.csdn.net/u012882823/article/details/140170281

相关文章

  • [分布式网络通讯框架]----MprpcController以及Logger类
    在calluserservice.cc中,使用UserServiceRpc_Stub类的时候,我们最终调用形式为:stub.Login(&controller,&request,&response,nullptr);注意到其中有一个controller对象,这个是由MprpcController类定义出来的对象,那么这个类的作用是什么呢?首先我们来看Login()的底层实现,传入......
  • 如何实现高可用的分布式系统
    实现高可用的分布式系统需要考虑以下几个方面:负载均衡:通过负载均衡技术,将请求分发到不同的节点上,避免单一节点过载或故障导致整个系统崩溃。常见的负载均衡算法包括轮询、加权轮询、最小连接数等。集群化部署:将应用程序部署在多台服务器上,并使用集群管理软件进行统一管理......
  • (必看图文)Hadoop集群安装及MapReduce应用(手把手详解版)
    前言    随着大数据时代的到来,处理和分析海量数据已成为企业和科研机构不可或缺的能力。Hadoop,作为开源的分布式计算平台,因其强大的数据处理能力和良好的可扩展性,成为大数据处理领域的佼佼者。本图文教程旨在帮助读者理解Hadoop集群的安装过程,并通过MapReduce应用实例,......
  • Java使用分布式锁来防止重复提交
    1.分布式锁的使用场景分布式锁的使用场景包括以下几个方面:1)防止重复操作:在某些业务场景下,可能会出现多个客户端同时对同一资源进行修改或者访问的情况。为了避免这种情况发生,可以采用分布式锁来保证只有一个客户端能够成功获取到资源并执行相应操作。2)控制并发流量:在高......
  • Java使用分布式锁来做分布式任务调度
    步骤如下:1) 选择合适的分布式锁实现:常见的分布式锁实现包括ZooKeeper、Redis和基于数据库等。根据具体情况选择最佳方案。2) 获取分布式锁:在需要进行操作时,首先尝试获取分布式锁。如果成功获取到,则可以执行相应操作;否则说明已经有其他客户端正在处理该请求,此时可以直......
  • Ubuntu24.04配置支持asp.net framework 4.0的apache服务器
    参考《在Linux(Ubuntu/openSUSE/CentOS)下配置ASP.NET(Apache+Mono)》,但由于操作系统版本不一样,部分命令要修改1、安装apachesudoapt-getinstallapache22、安装mono及apache支持模块,这里安装很正常,并没有文中提到的卡死情况,应该是已经修复这个bug了。sudoaptinstallmon......
  • Redis-分布式锁(基本原理和不同实现方式对比)
    文章目录1、基本原理2、不同实现方式1、基本原理分布式锁:满足分布式系统或集群模式下多进程可见并且互斥的锁。分布式锁的核心思想就是让大家都使用同一把锁,只要大家使用的是同一把锁,那么我们就能锁住线程,不让线程进行,让程序串行执行,这就是分布式锁的核心思路......
  • Hadoop权威指南-读书笔记-01-初识Hadoop
    Hadoop权威指南-读书笔记记录一下读这本书的时候觉得有意思或者重要的点~第一章—初识HadoopTips:这个引例很有哲理嘻嘻......
  • 【分布式数据仓库Hive】Hive的安装配置及测试
    目录一、数据库MySQL安装1.检查操作系统是否有MySQL安装残留2.删除残留的MySQL安装(使用yum)3.安装MySQL依赖包、客户端和服务器4.MySQL登录账户root设置密码,密码值自定义,这里是‘abc1234’5.启动MySQL服务6.登录MySQL,进入数据库操作提示符7.授权Hive远程登录账户......
  • Apache的配置详解
    目录httpd配置1.工作模式1.1Prefork模式1.2Worker模式1.3.Event模式总结1.4调整工作模式2.httpd配置文件解析2.1ServerRoot2.2Listen2.3Include2.4User&Group2.5ServerAdmin2.6<Directory>2.7File2.8DocumentRoot3.高级配置3.1httpd的长连接3.2配置资源访问......