搭建Hadoop开发环境并运行WordCount测试程序

时间：2023-12-24 21:01:48浏览次数：33

标签：xml 步骤 WordCount Hadoop 测试程序 hadoop txt

步骤 1：修改主机名和IP地址
1.1 修改主机名

sudo hostnamectl set-hostname your_hostname

1.2 修改IP地址和绑定主机名与IP，根据你的网络配置进行设置。

步骤 2：关闭防火墙并关闭防火墙开机启动

sudo systemctl stop firewalld
 sudo systemctl disable firewalld

步骤 3：安装JDK并配置环境变量
3.1 安装JDK，这里假设你已经下载了适用于你的系统的JDK安装包。

tar -zxvf jdk-*.tar.gz -C /opt

3.2 配置环境变量，在/etc/profile或者~/.bashrc中添加以下行，并保存：

export JAVA_HOME=/opt/jdk
 export PATH=$JAVA_HOME/bin:$PATH

然后执行以下命令使配置生效：

source /etc/profile  # 或 source ~/.bashrc

步骤 4：安装Hadoop并配置
4.1 下载Hadoop，解压并配置环境变量。假设你已经下载了Hadoop安装包。

tar -zxvf hadoop-*.tar.gz -C /opt

4.2 修改Hadoop配置文件（core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml）以满足你的需求。

步骤 5：初始化HDFS（格式化文件系统）

hadoop namenode -format

步骤 6：启动Hadoop
6.1 启动HDFS：

start-dfs.sh

6.2 启动YARN：

start-yarn.sh

步骤 7：实现WordCount测试程序
7.1 在Hadoop用户当前目录下创建WordCount文件夹，并在其中创建两个测试文件file1.txt和file2.txt，填写内容。

7.2 在Hadoop文件系统上创建一个名为 "input" 的文件夹：

hadoop fs -mkdir /input

7.3 将WordCount文件夹中的file1.txt和file2.txt上传到刚刚创建的 "input" 文件夹：

hadoop fs -put /home/hadoop/WordCount/*.txt /input

7.4 运行WordCount示例程序：

hadoop jar hadoop-mapreduce-examples-*.jar wordcount /input /output

步骤 8：查看输出结果
8.1 查看输出结果的文件位置：

hadoop fs -ls /output

8.2 使用以下命令查看WordCount的结果：

hadoop fs -cat /output/part-r-00000

标签：xml,步骤,WordCount,Hadoop,测试程序,hadoop,txt
From： https://blog.51cto.com/chenfenglove/8957055

Hadoop YARN Cgroups 资源隔离讲解
目录一、概述二、Hadoop环境准备三、内存资源限制四、CPU资源限制1）启用LCE2）启用CGroup3）配置YarnCGroup目录3）CPU资源限制一、概述HadoopYARN(YetAnotherResourceNegotiator)使用Cgroups（ControlGroups）来进行资源管理和隔离。Cgroups是Linux内核提供的一种机制，......
Hadoop集群迁移(元数据及HDFS数据）
1.背景老集群采用的腾讯emr集群，使用过程中磁盘扩容成本费用高且开源组件兼容性存在问题，因此决定采用自建hadoop集群，需要将emr的元数据和hdfs基础数据迁移过来。EMR版本：3.1.2自建Hadoop版本：3.1.32.集群迁移步骤2.1数据迁移nohuphadoopdistcp-i-phdfs://emrhdf存储地址/......
大数据hadoop理论面试题
1、列举几个hadoop生态圈的组件并做简要描述？（1）Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务，配置维护，命名服务。（2）Flume:一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。（3）Hbase:是一个分布式的、面向列的开源数据库,利用HadoopH......
MapReduce入门案例——wordcount词频统计分析
说实话，wordcount这个案例挺土的，但是作为入门案例，还是值得学习的，本篇就通过MapReduce来对词频进行一个统计分析，并写出核心代码。一：案例介绍： Input:读取文本文件；Splitting:将文件按照文件块(block)或者行进行拆分，此时得到的K1为偏移量，V1表示对应行......
hadoop集群常见错误
虚拟及没有启动任何服务器查看jps会显示jps，如果没有显示任何东西[root@slave2~]#jps9647Jps解决方案#进入/tmp查看[root@slave1dfs]#cd/tmp[root@slave1tmp]#ll总用量48drwxr-xr-x.2rootroot3212月1901:19hsperfdata_root#修改权限chmod75......
hadoop启动时报错process information unavailable
启动hadoop，jps查看报错[root@slave1home]#jps7798--processinformationunavailable7081--processinformationunavailable查看进程是否存在[root@slave1home]#ps-ef|grep7798root93127475023:19pts/200:00:00grep--color=auto7798......
Hadoop的“前世今生”
Hello，小伙伴们，作为大数据的第一篇博文，肯定要先介绍一下大数据中的“大哥大”Hadoop了，别急，咱们慢慢介绍。一：Hadoop名称由来与很多其他的开源框架不同，Hadoop的名字并不是一个缩写，而是一个生造出来的词。据说是Hadoop之父DougCutting用儿子毛绒......
Hadoop Yarn Tool接口接入
项目搭建参考Java实现对HadoopHDFS的API操作1.驱动类packagecn.coreqi.mapreduce.tool;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.util.Tool;importorg.apache.hadoop.util.ToolRunner;importjava.util.Arrays;publicclassWordCoun......
Hadoop YARN生产环境核心配置参数
1.ResourceManager相关配置参数说明默认值备注yarn.resourcemanager.scheduler.class配置调度器,默认为容量调度器(Apache)org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler对并发度要求高，首选公平调度器,对并发度要求不高，则......
Hadoop YARN
1.Yarn资源调度器Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。1.Yarn基础架构Yarn主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。1.......

搭建Hadoop开发环境并运行WordCount测试程序

相关文章

赞助商

阅读排行