首页 > 编程语言 >搭建Hadoop开发环境并运行WordCount测试程序

搭建Hadoop开发环境并运行WordCount测试程序

时间:2023-12-24 21:01:48浏览次数:28  
标签:xml 步骤 WordCount Hadoop 测试程序 hadoop txt

步骤 1:修改主机名和IP地址
1.1 修改主机名

sudo hostnamectl set-hostname your_hostname

1.2 修改IP地址和绑定主机名与IP,根据你的网络配置进行设置。

步骤 2:关闭防火墙并关闭防火墙开机启动

sudo systemctl stop firewalld
 sudo systemctl disable firewalld

步骤 3:安装JDK并配置环境变量
3.1 安装JDK,这里假设你已经下载了适用于你的系统的JDK安装包。

tar -zxvf jdk-*.tar.gz -C /opt

3.2 配置环境变量,在/etc/profile或者~/.bashrc中添加以下行,并保存:

export JAVA_HOME=/opt/jdk
 export PATH=$JAVA_HOME/bin:$PATH

然后执行以下命令使配置生效:

source /etc/profile  # 或 source ~/.bashrc

步骤 4:安装Hadoop并配置
4.1 下载Hadoop,解压并配置环境变量。假设你已经下载了Hadoop安装包。

tar -zxvf hadoop-*.tar.gz -C /opt

4.2 修改Hadoop配置文件(core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml)以满足你的需求。

步骤 5:初始化HDFS(格式化文件系统)

hadoop namenode -format

步骤 6:启动Hadoop
6.1 启动HDFS:

start-dfs.sh

6.2 启动YARN:

start-yarn.sh

步骤 7:实现WordCount测试程序
7.1 在Hadoop用户当前目录下创建WordCount文件夹,并在其中创建两个测试文件file1.txtfile2.txt,填写内容。

7.2 在Hadoop文件系统上创建一个名为 "input" 的文件夹:

hadoop fs -mkdir /input

7.3 将WordCount文件夹中的file1.txtfile2.txt上传到刚刚创建的 "input" 文件夹:

hadoop fs -put /home/hadoop/WordCount/*.txt /input

7.4 运行WordCount示例程序:

hadoop jar hadoop-mapreduce-examples-*.jar wordcount /input /output

步骤 8:查看输出结果
8.1 查看输出结果的文件位置:

hadoop fs -ls /output

8.2 使用以下命令查看WordCount的结果:

hadoop fs -cat /output/part-r-00000


标签:xml,步骤,WordCount,Hadoop,测试程序,hadoop,txt
From: https://blog.51cto.com/chenfenglove/8957055

相关文章

  • Hadoop YARN Cgroups 资源隔离讲解
    目录一、概述二、Hadoop环境准备三、内存资源限制四、CPU资源限制1)启用LCE2)启用CGroup3)配置YarnCGroup目录3)CPU资源限制一、概述HadoopYARN(YetAnotherResourceNegotiator)使用Cgroups(ControlGroups)来进行资源管理和隔离。Cgroups是Linux内核提供的一种机制,......
  • Hadoop集群迁移(元数据及HDFS数据)
    1.背景老集群采用的腾讯emr集群,使用过程中磁盘扩容成本费用高且开源组件兼容性存在问题,因此决定采用自建hadoop集群,需要将emr的元数据和hdfs基础数据迁移过来。EMR版本:3.1.2自建Hadoop版本:3.1.32.集群迁移步骤2.1数据迁移nohuphadoopdistcp-i-phdfs://emrhdf存储地址/......
  • 大数据hadoop理论面试题
    1、列举几个hadoop生态圈的组件并做简要描述?(1)Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务,配置维护,命名服务。(2)Flume:一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。(3)Hbase:是一个分布式的、面向列的开源数据库,利用HadoopH......
  • MapReduce入门案例——wordcount词频统计分析
        说实话,wordcount这个案例挺土的,但是作为入门案例,还是值得学习的,本篇就通过MapReduce来对词频进行一个统计分析,并写出核心代码。一:案例介绍:     Input:读取文本文件;Splitting:将文件按照文件块(block)或者行进行拆分,此时得到的K1为偏移量,V1表示对应行......
  • hadoop集群常见错误
    虚拟及没有启动任何服务器查看jps会显示jps,如果没有显示任何东西[root@slave2~]#jps9647Jps解决方案#进入/tmp查看[root@slave1dfs]#cd/tmp[root@slave1tmp]#ll总用量48drwxr-xr-x.2rootroot3212月1901:19hsperfdata_root#修改权限chmod75......
  • hadoop启动时报错process information unavailable
    启动hadoop,jps查看报错[root@slave1home]#jps7798--processinformationunavailable7081--processinformationunavailable查看进程是否存在[root@slave1home]#ps-ef|grep7798root93127475023:19pts/200:00:00grep--color=auto7798......
  • Hadoop的“前世今生”
          Hello,小伙伴们,作为大数据的第一篇博文,肯定要先介绍一下大数据中的“大哥大”Hadoop了,别急,咱们慢慢介绍。   一:Hadoop名称由来   与很多其他的开源框架不同,Hadoop的名字并不是一个缩写,而是一个生造出来的词。据说是Hadoop之父DougCutting用儿子毛绒......
  • Hadoop Yarn Tool接口接入
    项目搭建参考Java实现对HadoopHDFS的API操作1.驱动类packagecn.coreqi.mapreduce.tool;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.util.Tool;importorg.apache.hadoop.util.ToolRunner;importjava.util.Arrays;publicclassWordCoun......
  • Hadoop YARN生产环境核心配置参数
    1.ResourceManager相关配置参数说明默认值备注yarn.resourcemanager.scheduler.class配置调度器,默认为容量调度器(Apache)org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler对并发度要求高,首选公平调度器,对并发度要求不高,则......
  • Hadoop YARN
    1.Yarn资源调度器Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。1.Yarn基础架构Yarn主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。1.......