首页 > 其他分享 >Hadoop集群运行

Hadoop集群运行

时间:2023-04-30 17:23:39浏览次数:31  
标签:HDFS 30 Hadoop hadoop master 运行 input 目录 集群

1. 实验一:hadoop 集群运行

实验任务一:配置 Hadoop 格式化

步骤一:NameNode 格式化
[root@master ~]# su - hadoop
[hadoop@master ~]$ cd /usr/local/src/hadoop/ 

结果:

[hadoop@master ~]$ ./bin/hdfs namenode –format 
-bash: ./bin/hdfs: No such file or directory
[hadoop@master ~]$ cd /usr/local/src/hadoop/
[hadoop@master hadoop]$ ./bin/hdfs namenode –format 
22/03/30 16:46:38 INFO namenode.NameNode: SHUTDOWN_MSG: 
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at master/192.168.64.128
************************************************************/
......
步骤二:启动 NameNode
[hadoop@master hadoop]$ hadoop-daemon.sh start namenode 
starting namenode, logging to /usr/local/src/hadoop/logs/hadoop-hadoop-namenode-master.out

实验任务二:查看 Java 进程

[hadoop@master hadoop]$ jps
2372 NameNode
2443 Jps
步骤一:slave 启动 DataNode
[hadoop@slave1 hadoop]$ hadoop-daemon.sh start datanode 
starting datanode, logging to /usr/local/src/hadoop/logs/hadoop-hadoop-datanode-slave1.out
[hadoop@slave2 hadoop]$ hadoop-daemon.sh start datanode
starting datanode, logging to /usr/local/src/hadoop/logs/hadoop-hadoop-datanode-slave2.out
[hadoop@slave1 hadoop]$ jps
2588 Jps
2511 DataNode
[hadoop@slave2 hadoop]$ jps
2402 Jps
2325 DataNode
步骤二:启动 SecondaryNameNode
[hadoop@master hadoop]$ hadoop-daemon.sh start secondarynamenode 
starting secondarynamenode, logging to /usr/local/src/hadoop/logs/hadoop-hadoop-secondarynamenode-master.out
[hadoop@master hadoop]$ jps
2372 NameNode
2519 Jps
2474 SecondaryNameNode
步骤三:查看 HDFS 数据存放位置
[hadoop@master hadoop]$ ll dfs/
total 0
drwxr-xr-x 2 hadoop hadoop  6 Mar 30 15:25 data
drwxr-xr-x 3 hadoop hadoop 40 Mar 30 16:48 name

实验任务三:查看 HDFS 的报告

[hadoop@master sbin]$ hdfs dfsadmin -report 
Configured Capacity: 36477861888 (33.97 GB)
Present Capacity: 30106460160 (28.04 GB)
DFS Remaining: 30106451968 (28.04 GB)
DFS Used: 8192 (8 KB)
DFS Used%: 0.00%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0
Missing blocks (with replication factor 1): 0

-------------------------------------------------
Live datanodes (2):

Name: 192.168.64.130:50010 (slave2)
Hostname: slave2
Decommission Status : Normal
Configured Capacity: 18238930944 (16.99 GB)
DFS Used: 4096 (4 KB)
Non DFS Used: 3185790976 (2.97 GB)
DFS Remaining: 15053135872 (14.02 GB)
DFS Used%: 0.00%
DFS Remaining%: 82.53%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Wed Mar 30 17:00:36 CST 2022


Name: 192.168.64.129:50010 (slave1)
Hostname: slave1
Decommission Status : Normal
Configured Capacity: 18238930944 (16.99 GB)
DFS Used: 4096 (4 KB)
Non DFS Used: 3185610752 (2.97 GB)
DFS Remaining: 15053316096 (14.02 GB)
DFS Used%: 0.00%
DFS Remaining%: 82.53%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Wed Mar 30 17:00:38 CST 2022

实验任务四:使用浏览器查看节点状态

可以使用 start-dfs.sh 命令启动 HDFS。这时需要配置 SSH 免密码登录,否则在启动过
程中系统将多次要求确认连接和输入 Hadoop 用户密码

[hadoop@master hadoop]$ stop-dfs.sh 
[hadoop@master hadoop]$ start-dfs.sh

步骤一:在 HDFS 文件系统中创建数据输入目录
[hadoop@master hadoop]$ start-yarn.sh

[hadoop@master sbin]$ jps
3425 Jps
3012 NameNode
3159 ResourceManager
2474 SecondaryNameNode

如果是第一次运行 MapReduce 程序,需要先在 HDFS 文件系统中创建数据输入目录,存
放输入数据。这里指定/input 目录为输入数据的存放目录

[hadoop@master hadoop]$ hdfs dfs -mkdir /input
[hadoop@master hadoop]$ hdfs dfs -ls / 
Found 1 items
drwxr-xr-x   - hadoop supergroup          0 2022-03-30 17:11 /input

此处创建的/input 目录是在 HDFS 文件系统中,只能用 HDFS 命令查看和操作。

步骤二:将输入数据文件复制到 HDFS 的/input 目录中

测试用数据文件仍然是上一节所用的测试数据文件~/input/data.txt,内容如下所示。

[hadoop@master ~]$ mkdir input
[hadoop@master ~]$ ls
input
[hadoop@master ~]$ vi input/data.txt
[hadoop@master ~]$ cat ~/input/data.txt
hello world
hello hadoop
hello huasan

执行如下命令,将输入数据文件复制到 HDFS 的/input 目录中:

[hadoop@master ~]$ hdfs dfs -put ~/input/data.txt /input 

确认文件已复制到 HDFS 的/input 目录:

[hadoop@master ~]$ hdfs dfs -ls /input
Found 1 items
-rw-r--r--   2 hadoop supergroup         38 2022-03-30 17:30 /input/data.txt

步骤三:运行 WordCount 案例,计算数据文件中各单词的频度。

运行 MapReduce 命令需要指定数据输出目录,该目录为 HDFS 文件系统中的目录,会自
动生成。如果在执行 MapReduce 命令前,该目录已经存在,则执行 MapReduce 命令会出错。
例如 MapReduce 命令指定数据输出目录为/output,/output 目录在 HDFS 文件系统中已经存
在,则执行相应的 MapReduce 命令就会出错。所以如果不是第一次运行 MapReduce,就要先
查看HDFS中的文件,是否存在/output目录。如果已经存在/output目录,就要先删除/output
目录,再执行上述命令。

自动创建的/output 目录在 HDFS 文件系统中,使用 HDFS 命令查看和操作。

[hadoop@master ~]$ hdfs dfs -mkdir /output 

先执行如下命令查看 HDFS 中的文件:

[hadoop@master ~]$ hdfs dfs -ls  /
Found 2 items
drwxr-xr-x   - hadoop supergroup          0 2022-03-30 17:30 /input
drwxr-xr-x   - hadoop supergroup          0 2022-03-30 17:31 /output

上述目录中/input 目录是输入数据存放的目录,/output 目录是输出数据存放的目录。
执行如下命令,删除/output 目录。

[hadoop@master ~]$ hdfs dfs -rm -r -f /output
22/03/30 17:32:45 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes.
Deleted /output

执行如下命令运行 WordCount 案例:

[hadoop@master hadoop]$ hadoop jar share/hadoop/mapreduce/hadoopmapreduce-examples-2.7.1.jar  wordcount /input/data.txt /output 

MapReduce 程序运行过程中的输出信息如下所示

22/03/30 17:35:41 INFO client.RMProxy: Connecting to ResourceManager at localhost/192.168.64.128:8032 22/03/30 17:35:43 INFO input.FileInputFormat: Total input paths to process : 1 22/03/30 17:36:47 INFO mapreduce.JobSubmitter: number of splits:1 22/03/30 17:37:44 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1588469277215_0001 
......

查看 output 目录,如图 5-6 所示,发现有两个文件。文件_SUCCESS 表示处理成功,处
理的结果存放在 part-r-00000 文件中。在页面上不能直接查看文件内容,需要下载到本地
系统才行。

可以使用 HDFS 命令直接查看 part-r-00000 文件内容,结果如下所示:

[hadoop@master hadoop]$ hdfs dfs -cat /output/part-r-00000 
Hadoop 1 
Hello 3 
Huasan 1 
World 1

可以看出统计结果正确,说明 Hadoop 运行正常

实验任务五:停止 Hadoop

步骤一:停止 yarn
[hadoop@master hadoop]$ stop-yarn.sh

步骤二:停止 DataNode
[hadoop@slave1 hadoop]$ hadoop-daemon.sh stop datanode 
stopping namenode
[hadoop@slave2 hadoop]$ hadoop-daemon.sh stop datanode 
stopping namenode

步骤二:停止 NameNode
[hadoop@master hadoop]$ hadoop-daemon.sh stop namenode 
stopping namenode 

步骤三:停止 SecondaryNameNode
[hadoop@master hadoop]$ hadoop-daemon.sh stop secondarynamenode 
stopping secondarynamenode 

步骤四:查看 JAVA 进程,确认 HDFS 进程已全部关闭
[hadoop@master hadoop]$ jps  
3012 Jps 
30438 RunJar

标签:HDFS,30,Hadoop,hadoop,master,运行,input,目录,集群
From: https://www.cnblogs.com/laogai13/p/17365458.html

相关文章

  • hadoop平台安装
    Hadoop平台安装1.实验一:Linux操作系统环境设置1.1.实验目的完成本实验,您应该能够:掌握linux操作系统环境设置掌握hadoop安装的环境要求1.2.实验要求熟悉常用Linux操作系统命令熟悉hadoop安装的环境了解linux修改系统变量命令及各参数1.3.实验环境本实验所......
  • 手写web框架--了解web运行机制。
    第一步--写一个服务端importsocketserver=socket.socket()#默认就是TCP协议server.bind(('127.0.0.1',8080))server.listen(5)whileTrue:conn,addr=server.accept()#三次四次挥手data=conn.recv(1024)#接收消息print(data)conn.se......
  • Win10系统命令行以管理员身份运行的几种方式
    在win10系统中运行许多命令需要使用管理员身份运行,如果直接按下win+R组合键呼出运行,键入cmd打开命令提示符输入命令执行的话会出现无法执行的现象。给大家分享下win10系统中几个以管理员身份运行的方法。方法一:1、在开始菜单上单击鼠标右键,在弹出的菜单中点击【命令提示符(......
  • Kubernetes从入门到精通 集群安装
    kubernetes集群安装一准备集群镜像从阿里云镜像仓库拉镜像标签改名#在安装kubernetes集群之前,必须要提前准备好集群需要的镜像,所需镜像可以通过下面命令查看[root@master~]#kubeadmconfigimageslist#下载镜像#此镜像kubernetes的仓库中,由于网络......
  • 单机版hadoop在Linux环境下的安装和配置
    创建hadoop用户首先打开终端窗口,输入如下命令创建hadoop用户,这条命令创建可以登录的hadoop用户,并使用/bin/bash作为shell:$sudouseradd-mhadoop-s/bin/bash接着为hadoop设置登录密码,可简单设为123456,按提示输入两次:$sudopasswdhadoop为hadoop用户增加管理员权限,......
  • 【c++基础】程序运行时间计时
    使用std::chrono计算程序运行时间#include<iostream>#include<string>#include<chrono>voidRun(){ for(inti=0;i<1000000000;++i) { }}intmain(){ autobeforeTime=std::chrono::steady_clock::now(); Run(); autoafterTime......
  • docker如何清除所有运行过的容器
    要清除所有运行过的容器,可以使用以下命令:dockercontainerstop$(dockercontainerls-aq)dockercontainerrm$(dockercontainerls-aq)这两个命令的含义是:第一个命令dockercontainerstop$(dockercontainerls-aq),用于停止所有正在运行的容器。它使用了子命令dockerc......
  • ubuntu运行vite项目,出现端口无权限
    npmrundev>[email protected]>viteerrorwhenstartingdevserver:Error:listenEACCES:permissiondenied0.0.0.0:86atServer.setupListenHandle[as_listen2](node:net:1723:21)atlistenInCluster(node:net:1788:12)atServer......
  • 解决联想拯救者开机运行内存过高
    1、使用win+R键打开cmd窗口2、输入MdSched进入内存诊断3、选择立即重启诊断缺点:过一段时间内存有开始增加了,这种方式只能解决一段时间,不能一劳永逸。时间:2023-04-29......
  • python+playwright 学习-58 Jenkins上使用 Pipeline 运行 playwright 自动化脚本
    前言Dockerfile.focal可用于在Docker环境中运行Playwright脚本。这些镜像包括在Docker容器中运行浏览器所需的所有依赖项,还包括浏览器本身。playwright在linux系统上目前只支持Ubuntu系统的部分版本,centos和debian系统上是没法运行的。jenkins环境准备需安装2个跟docke......