首页 > 其他分享 >大数据技术原理(二):搭建hadoop伪分布式集群这一篇就够了

大数据技术原理(二):搭建hadoop伪分布式集群这一篇就够了

时间:2024-05-25 19:05:00浏览次数:18  
标签:2.7 Hadoop 就够 hadoop export server root 分布式

(实验一 搭建hadoop伪分布式

--------------------------------------------------------------------------------------------------------------------------------

一、实验目的

1.理解Hadoop伪分布式的安装过程

实验内容涉及Hadoop平台的搭建和配置,旨在提高对大数据处理框架的理解和实践能力。通过完成本实验,将能够独立完成Hadoop伪分布式环境的安装和配置。

2.学会JDK安装和编译hadoop源码包

同时,通过手动编译hadoop源码包,还将能够更深入地了解Hadoop的内部原理和工作机制,通过解决问题并不断思考,具备根据需求进行扩展和定制的能力。

3.学会Hadoop伪分布式安装和参数配置

修改Hadoop的配置文件,包括core-site.xml、hdfs-site.xml等,根据实际需求设置相应的参数,启动Hadoop集群服务,检查各个节点的运行状态是否正常。

二、实验环境

1.VMware WorkStation Pro 16

2.Jdk 1.8.0_241

3.hadoop2.7.5

三、实验原理

1.Hadoop架构概述

Hadoop是一个开源的分布式计算框架,主要用于存储和处理大规模数据集。它采用了分布式存储和计算的方式,将大型数据集分割成多个数据块,并将这些数据块分布式存储到多台计算机节点上。

2.伪分布式的安装

伪分布式实验是在单台计算机上模拟多个Hadoop节点的环境。通过在一台计算机上安装Hadoop软件并进行适当的配置,可以模拟一个包含多个节点的Hadoop集群,并让这些节点之间相互通信和协作。


四、实验步骤与实验结果

(一)服务器基础环境准备

1.修改好虚拟机主机名

vi /etc/hostname,将其改为node1

2.查看虚拟机IP地址

ifconfig,查看显示IP地址为192.168.88.100

3.修改主机名和IP的映射关系

vim /etc/hosts,输入:192.168.88.100 node1

与此同时,同步修改windows的C:\Windows\System32\drivers\etc\hosts文件

4.用主机名ping通:宿主机IP和外网IP

ping 192.168.88.100
ping www.baidu.com

5.关闭虚拟机防火墙和windows防火墙
(1)关闭虚拟机防火墙

#查看防火墙状态

systemctl status firewalld.service

#关闭防火墙

systemctl stop firewalld.service

#关闭防火墙开机启动

systemctl disable firewalld.service

(2)关闭windows防火墙

(二)在虚拟机上安装JDK

1.上传jdk

rz jdk-8u65-linux-x64.tar.gz,需要安装rz命令(yum install -y lrzsz)

2.解压jdk

tar -zxvf jdk-8u65-linux-x64.tar.gz -C /export/server

其中,tar命令参数解释如下:

-z:使用解压方式

-x:解压gz的文件

-v:显示解压信息

-f:带解压文件名

-C:指定解压路径

3.将java添加到环境变量中

vim /etc/profile

#在文件最后添加

export JAVA_HOME=/export/server/jdk1.8.0_241

export PATH=$PATH:$JAVA_HOME/bin

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/

4.刷新配置文件

source /etc/profile

5.查看jdk安装情况

java -version

(三)重新编译hadoop

1.官方网站下载源码包

Index of /dist

2.下载对应版本编译包

https://archive.apache.org/dist/hadoop/common/

hadoop-2.7.5-src.tar.gz      //source 源码包

hadoop-2.7.5.tar.gz         //官方编译后安装包

3.进行hadoop源码包编译

在源码的根目录下有编译相关的文件BUILDING.txt 指导如何编译。

使用maven进行编译 联网jar.

4.编译环境进行目录创建

mkdir -p /export/server

5.安装编译相关的依赖

yum install gcc gcc-c++ make autoconf automake libtool curl lzo-devel zlib-devel openssl openssl-devel ncurses-devel snappy snappy-devel bzip2 bzip2-devel lzo lzo-devel lzop libXtst zlib -y

yum install -y doxygen cyrus-sasl* saslwrapper-devel*

6.手动安装cmake

#yum卸载已安装cmake 版本低

yum erase cmake

#解压

tar zxvf CMake-3.19.4.tar.gz

#编译安装

cd /export/server/CMake-3.19.4

./configure

make && make install

#验证

[root@node1 ~]# cmake -version

cmake version 3.19.4

#如果没有正确显示版本 请断开SSH连接 重写登录

7.手动安装snappy

#卸载已经安装的

rm -rf /usr/local/lib/libsnappy*

rm -rf /lib64/libsnappy*

#上传解压

tar zxvf snappy-1.1.3.tar.gz

#编译安装

cd /export/server/snappy-1.1.3

./configure

make && make install

#验证是否安装

[root@node1 snappy-1.1.3]# ls -lh /usr/local/lib |grep snappy

-rw-r--r-- 1 root root 511K Nov  4 17:13 libsnappy.a

-rwxr-xr-x 1 root root  955 Nov  4 17:13 libsnappy.la

lrwxrwxrwx 1 root root   18 Nov  4 17:13 libsnappy.so -> libsnappy.so.1.3.0

lrwxrwxrwx 1 root root   18 Nov  4 17:13 libsnappy.so.1 -> libsnappy.so.1.3.0

-rwxr-xr-x 1 root root 253K Nov  4 17:13 libsnappy.so.1.3.0

8.安装maven

#解压安装包

tar zxvf apache-maven-3.5.4-bin.tar.gz

#配置环境变量

vim /etc/profile

export MAVEN_HOME=/export/server/apache-maven-3.5.4

export MAVEN_OPTS="-Xms4096m -Xmx4096m"

export PATH=:$MAVEN_HOME/bin:$PATH

source /etc/profile

#验证是否安装成功

[root@node1 ~]# mvn -v

Apache Maven 3.5.4

#添加maven 阿里云仓库地址 加快国内编译速度

vim /export/server/apache-maven-3.5.4/conf/settings.xml

<mirrors>

     <mirror>

           <id>alimaven</id>

           <name>aliyun maven</name>

           <url>http://maven.aliyun.com/nexus/content/groups/public/</url>

           <mirrorOf>central</mirrorOf>

      </mirror>

</mirrors>

9.安装ProtocolBuffer 3.7.1

#卸载之前版本的protobuf

#解压

tar zxvf protobuf-3.7.1.tar.gz

#编译安装

cd /export/server/protobuf-3.7.1

./autogen.sh

./configure

make && make install

#验证是否安装成功

[root@node1 protobuf-3.7.1]# protoc --version

libprotoc 3.7.1

10.编译hadoop

#上传解压源码包

tar zxvf hadoop-2.7.5-src.tar.gz

#编译

cd /root/hadoop-2.7.5-src

mvn clean package -Pdist,native -DskipTests -Dtar -Dbundle.snappy -Dsnappy.lib=/usr/local/lib

#参数说明:

Pdist,native :把重新编译生成的hadoop动态库;

DskipTests :跳过测试

Dtar :最后把文件以tar打包

Dbundle.snappy :添加snappy压缩支持【默认官网下载的是不支持的】

Dsnappy.lib=/usr/local/lib :指snappy在编译机器上安装后的库路径

11.编译后安装包路径

/root/hadoop-2.7.5-src/hadoop-dist/target

(四)安装hadoop伪分布式

1.上传Hadoop安装包

hadoop-2.7.5-Centos7-64-with-snappy.tar.gz

tar zxvf hadoop-2.7.5-Centos7-64-with-snappy.tar.gz -C /export/server/

2.切换到配置文件目录

cd /export/server/hadoop-2.7.5/etc/hadoop

3.修改hadoop-env.sh

export JAVA_HOME=/export/server/jdk1.8.0_241

#文件最后添加

export HDFS_NAMENODE_USER=root

export HDFS_DATANODE_USER=root

export HDFS_SECONDARYNAMENODE_USER=root

export YARN_RESOURCEMANAGER_USER=root

export YARN_NODEMANAGER_USER=root

4.修改core-site.xml

<!-- 设置默认使用的文件系统 Hadoop支持file、HDFS、GFS、ali|Amazon云等文件系统 -->

<property>

    <name>fs.defaultFS</name>

    <value>hdfs://node1:8020</value>

</property>

<!-- 设置Hadoop本地保存数据路径 -->

<property>

    <name>hadoop.tmp.dir</name>

    <value>/export/data/hadoop-2.7.5</value>

</property>

<!-- 设置HDFS web UI用户身份 -->

<property>

    <name>hadoop.http.staticuser.user</name>

    <value>root</value>

</property>

<!-- 整合hive 用户代理设置 -->

<property>

    <name>hadoop.proxyuser.root.hosts</name>

    <value>*</value>

</property>

<property>

    <name>hadoop.proxyuser.root.groups</name>

    <value>*</value>

</property>

5.修改hdfs-site.xml

<configuration>

<!-- 指定SecondaryNameNode的主机和端口 -->

<property>

<name>dfs.namenode.secondary.http-address</name>

<value>node1:50090</value>

</property>

<!-- 指定namenode的页面访问地址和端口 -->

<property>

<name>dfs.namenode.http-address</name>

<value>node1:50070</value>

</property>

<!-- 指定namenode元数据的存放位置 -->

<property>

<name>dfs.namenode.name.dir</name>

<value>file:///export/server/hadoop-2.7.5/hadoopDatas/namenodeDatas</value>

</property>

<!--  定义datanode数据存储的节点位置 -->

<property>

<name>dfs.datanode.data.dir</name>

<value>file:///export/server/hadoop-2.7.5/hadoopDatas/datanodeDatas</value>

</property>

<!-- 定义namenode的edits文件存放路径 -->

<property>

<name>dfs.namenode.edits.dir</name>

<value>file:///export/server/hadoop-2.7.5/hadoopDatas/nn/edits</value>

</property>

<!-- 配置检查点目录 -->

<property>

<name>dfs.namenode.checkpoint.dir</name>

<value>file:///export/server/hadoop-2.7.5/hadoopDatas/snn/name</value>

</property>

<property>

<name>dfs.namenode.checkpoint.edits.dir</name>

<value>file:///export/server/hadoop-2.7.5/hadoopDatas/dfs/snn/edits</value>

</property>

<!-- 文件切片的副本个数-->

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

<!-- 设置HDFS的文件权限-->

<property>

<name>dfs.permissions</name>

<value>false</value>

</property>

<!-- 设置一个文件切片的大小:128M-->

<property>

<name>dfs.blocksize</name>

<value>134217728</value>

</property>

<!-- 指定DataNode的节点配置文件 -->

<property>

 <name> dfs.hosts </name>

 <value>/export/server/hadoop-2.7.5/etc/hadoop/slaves </value>

</property>

</configuration>

6.修改mapred-site.xml

<!-- 设置MR程序默认运行模式: yarn集群模式 local本地模式 -->

<property>

  <name>mapreduce.framework.name</name>

  <value>yarn</value>

</property>

<!-- MR程序历史服务器端地址 -->

<property>

  <name>mapreduce.jobhistory.address</name>

  <value>node1:10020</value>

</property>

<!-- 历史服务器web端地址 -->

<property>

  <name>mapreduce.jobhistory.webapp.address</name>

  <value>node1:19888</value>

</property>

<property>

  <name>yarn.app.mapreduce.am.env</name>

  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>

</property>

<property>

  <name>mapreduce.map.env</name>

  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>

</property>

<property>

  <name>mapreduce.reduce.env</name>

  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>

7.修改yarn-site.xml

<!-- 设置YARN集群主角色运行机器位置 -->

<property>

<name>yarn.resourcemanager.hostname</name>

<value>node1</value>

</property>

<property>

    <name>yarn.nodemanager.aux-services</name>

    <value>mapreduce_shuffle</value>

</property>

<!-- 是否将对容器实施物理内存限制 -->

<property>

    <name>yarn.nodemanager.pmem-check-enabled</name>

    <value>false</value>

</property>

<!-- 是否将对容器实施虚拟内存限制。 -->

<property>

    <name>yarn.nodemanager.vmem-check-enabled</name>

    <value>false</value>

</property>

<!-- 开启日志聚集 -->

<property>

  <name>yarn.log-aggregation-enable</name>

  <value>true</value>

</property>

<!-- 设置yarn历史服务器地址 -->

<property>

    <name>yarn.log.server.url</name>

    <value>http://node1:19888/jobhistory/logs</value>

</property>

<!-- 保存的时间7天 -->

<property>

  <name>yarn.log-aggregation.retain-seconds</name>

  <value>604800</value>

</property>

8.修改slaves文件(3.0版本之后更名为works文件)

cd /export/server/hadoop-2.7.5/etc/hadoop
vim slaves       // 将主机名node1填进去

9.将hadoop添加到环境变量

vim /etc/proflie

export HADOOP_HOME=/export/server/hadoop-2.7.5

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source /etc/profile

10.首次启动hadoop(格式化namenode)

hdfs namenode -format

#切记不可以多次格式化

(五)hadoop安装后初体验

1.启动hadoop软件

# 切换到启动脚本文件目录
cd /export/server/hadoop-2.7.5/sbin

# 运行一键启动hadoop服务的命令
./start-all.sh

# 查看节点上的服务情况
jps

2.启动hdfs的UI界面

# 在浏览器上输入
node1:50070

3.在hdfs上进行文件操作

# linux终端上进行命令行

hadoop fs -ls /

hadoop fs -mkdir /li-qi-liang

4.运行mapreduce程序

# 准备wordcount.txt文件,文件内容如下:

hello hello

world world

hadoop hadoop

hello world

hello flume

hadoop hive

hive kafka

flume storm

hive oozie

# 在hdfs上创建文件目录

hadoop fs -mkdir -p /wordcount/input

hadoop fs -put ./wordcount.txt /wordcount/input

# 切换到hadoop自带的mapreduce的jar包目录

cd /export/server/hadoop-2.7.5/share/hadoop/mapreduce

# 执行wordcount的mapreduce计算

hadoop jar hadoop-mapreduce-examples-2.7.5.jar wordcount

 /wordcount/input /wordcount/output

第一个参数:wordcount表示执行单词统计

第二个参数:指定输入文件的路径

第三个参数:指定输出结果的路径(该路径不能已存在)

5.关闭hadoop软件

# 切换到启动脚本文件目录
cd /export/server/hadoop-2.7.5/sbin

# 运行一键关闭hadoop服务的命令
./stop-all.sh
# 查看节点上的服务情况
jps

5.实验完毕,关闭虚拟机


# 方式一:

shutdown -h now


# 方式二:


init 0


# 方式三:


VMware上点击关机


五、实验总结

(一)发现问题与解决问题

1.编译hadoop出现警告消息

根据报错信息来看,编译hadoop过程中出现了找不到SASL库的错误。

解决方法如下:


yum install -y doxygen cyrus-sasl* saslwrapper-devel*

2.本地上传文件到linux上出现乱码

根据网上资料显示,当使用rz命令上传文件出现乱码时,可以采取添加参数。

解决方法如下:

输入rz -be  即可解决

rz命令的参数说明:

-a, –ascii

-b, –binary 用binary的方式上传下载,不解释字符为 ascii

-e, –escape 强制escape 所有控制字符,比如 Ctrl+x,DEL 等

-ary –o-sync

-a 表示使用ascii码格式传输文件,如果是Dos格式的文件,会转换为unix格式

-r 使用 Crash recovery mode. 即文件传输中断会重传

-y 表示文件已存在的时候会覆盖

–o-sync 采用同步写模式,以处理从缓存写到磁盘时中断丢失的情况

3.使用vim编辑器编辑文件粘贴失效

当使用vim编辑器进行粘贴配置文件信息时,常常粘贴的内容变成注释且很难取消,原因是vim编辑器没有处于粘贴模式(paste)。

解决方法如下:

令vim编辑器处于命令模式(ESC键+冒号):set paste

当粘贴结束后,set nopaste即可退出该模式。

4.伪分布式的集群时间不统一

当出现时间不统一的情况下,需要与阿里云服务器统一时间。

解决方法如下:

集群同步时间命令:ntpdate ntp5.aliyun.com

5.集群安全模式下不能修改删除

伪分布式集群误操作使得处于安全模式,需要退出安全模式才可以进行文件操作。

解决方法如下:

hadoop dfsadmin -safemode leave

6.hadoop中hdfs的9870端口用不了

通过查看版本差异,发现hadoop3.0以下的版本中默认端口号不是9870端口

解决方法如下:

node1:50070


(二)总结实验与思考感悟

搭建Hadoop伪分布式集群是学习和理解Hadoop分布式计算框架的重要一步。

1.规划和准备

在开始搭建伪分布式集群之前,需要充分规划和准备工作。首先,了解Hadoop的基本概念和架构,对其运行原理有清晰的理解。然后,确定使用的操作系统、网络设置和硬件配置。确保操作系统满足Hadoop的最低要求,并且网络配置和硬件资源能够支持集群的需求。

2.安装和配置Hadoop

根据操作系统选择适当版本的Hadoop,下载并解压安装包。在安装过程中,需要进行一些关键配置,例如修改核心配置文件(如hadoop-env.sh、core-site.xml、hdfs-site.xml等),指定必要的路径、端口、日志目录等。此外,还要设置SSH免密登录,以便节点之间能够相互通信。在此过程中,需要仔细阅读官方文档,并参考示例配置进行调整。

3.单节点测试

在搭建伪分布式集群之前,可以先在单个节点上进行测试和调试。这样可以确保Hadoop的基本功能正常工作。在单节点测试中,需要验证HDFS文件系统的正常操作(如上传、下载、移动文件等),以及MapReduce任务的执行情况。通过这些测试可以熟悉Hadoop的命令和工作流程,并排查可能出现的问题。

4.集群部署

完成单节点测试后,可以将配置好的Hadoop复制到其他节点上,以搭建伪分布式集群。确保所有节点都有相同的软件版本和配置文件。在部署过程中,需要注意各个节点之间的通信,包括网络连接、防火墙设置、主机名解析等。确保集群节点之间能够互相访问,并且能够正常启动和停止Hadoop服务。

5.集群测试和优化

完成集群部署后,进行一系列的测试和性能优化工作。可以使用一些标准的Hadoop测试任务(如WordCount、Sort等)对集群进行压力测试。观察任务的执行时间、资源占用情况、数据分布等指标,根据结果进行性能调优,包括调整配置参数、增加节点、优化数据存储和计算等方面。此外,还应进行故障模拟和容错测试,确保集群在部分节点故障的情况下依然能够正常运行。

6.学习和扩展

搭建伪分布式集群不仅是为了实现一个运行的Hadoop环境,更重要的是学习和理解分布式计算的核心概念和机制。在搭建过程中,要积极探索和研究Hadoop的原理,理解其如何管理数据、调度任务、处理故障等。此外,还可以尝试扩展集群规模,增加节点数量,进行更大规模的数据处理和并行计算,以进一步提升对Hadoop的理解。

总结起来,搭建Hadoop伪分布式集群是一个学习和实践的过程。需要有足够的耐心和细心,仔细阅读官方文档和参考资料,并能够灵活应对可能出现的问题和挑战。通过这个过程,不仅可以构建一个可用的分布式计算环境,还能够深入理解Hadoop的工作原理和分布式系统的设计思想。

标签:2.7,Hadoop,就够,hadoop,export,server,root,分布式
From: https://blog.csdn.net/m0_60732994/article/details/139156458

相关文章

  • 什么是SQL注入?SQL注入详解(非常详细)零基础入门到精通,收藏这一篇就够了
    一、SQL注入简介SQL注入就是指Web应用程序对用户输入数据的合理性没有进行判断,前端传入后端的参数是攻击者可控制的,并且根据参数带入数据库查询,攻击者可以通过构造不同的SQL语句来对数据库进行任意查询。下面以PHP语句为例作为展示:query="SELECT∗FROMus......
  • VMware上基于centos系统完全分布式Hadoop集群的搭建详解
    目录1.centos系统的环境的准备1.1.样本机的配置1.1.1.准备一个centos的虚拟机1.1.2.关闭系统的防火墙1.1.3.配置centos系统的IP1.1.4.修改主机名称1.1.5. 配置hosts映射文件1.2.jdk的安装1.2.1.jdk的下载1.2.2.虚拟机自带jdk的删除1.2.3.将jdk上传到虚拟机中1.2.4......
  • 信息安全专业全国院校排名(非常全面),收藏这一篇就够了
    信息安全专业国家级一流本科专业大学序号学校名称专业名称级别1复旦大学信息安全国家级2上海交通大学信息安全国家级3浙江大学信息安全国家级4中国科学技术大学信息安全国家级5中国人民大学信息安全国家级6北京航空航天大学信息安全国家级7......
  • SpringCloud + Python 混合微服务架构,打造AI分布式业务应用的技术底层
    文章很长,且持续更新,建议收藏起来,慢慢读!疯狂创客圈总目录博客园版为您奉上珍贵的学习资源:免费赠送:《尼恩Java面试宝典》持续更新+史上最全+面试必备2000页+面试必备+大厂必备+涨薪必备免费赠送:《尼恩技术圣经+高并发系列PDF》,帮你实现技术自由,完成职业升级,薪......
  • 端到端自适应大规模分布式训练技术
    端到端自适应大规模分布式训练技术随着2020年GPT-31750亿超大语言预训练模型的提出,语言、视觉、多模态等领域也随即发布多种超大规模预训练模型,不仅模型参数量越来越大,训练数据量和计算量也相应变大。针对大规模稠密参数模型高效训练问题,飞桨于2021年初在业内首发4D混合......
  • 分布式计算编程项目二
    利用RPC技术实现一个学生信息管理系统目录利用RPC技术实现一个学生信息管理系统一、具体要求二、相关理论理论迭代1.单机结构2.集群结构3.微服务结构微服务介绍RPC介绍使用到的相关包MySQL启动方法三、代码架构四、功能实现+界面展示基本功能:技术点:1.查询速度提高2.数据模型和......
  • 分布式任务调度内的 MySQL 分页查询优化
    作者:vivo互联网数据库团队- QiuXinbo本文主要通过图示介绍了用主键进行分片查询的过程,介绍了主键分页查询存在SQL性能问题,如何去创建高效的索引去优化主键分页查询的SQL性能问题。对于数据分布不均如何发现,提供了一些SQL查询案例来进行参考,对MySQLIndexConditionPushdown......
  • 分布式任务调度内的 MySQL 分页查询优化 等值在前,排序在中间,范围在最后
    分布式任务调度内的MySQL分页查询优化https://mp.weixin.qq.com/s/VhSzxYIRv83T3D3JD4cORg三、优化方案 3.1优化方案确定 当前SQL执行计划以主键进行顺序遍历,是一个范围扫描,有点像在一片很大的居民区按照序号挨家挨户寻找一些特定的人一样,比较简单也比较低效。 既然......
  • 分布式系统
    什么是分布式?分布式系统一定是由多个节点组成的系统。其中,节点指的是计算机服务器,而且这些节点一般不是孤立的,而是互通的。分布式与集群的区别?集群:集群是指在几个服务器上部署相同的应用程序来分担客户端的请求。它是同一个系统部署在不同的服务器上,比如一个登陆系统部署......
  • 4/25虾皮面试准备 Hadoop疑难杂症
    namenode元信息   小文件  容量队列      HadoopHAzkfc究竟是什么监视器和https://www.cnblogs.com/yjt1993/p/9492102.html 没有secondnode了!高可用因为standby代替了      Hadoop调优细节   ......