Hadoop（十五）项目考核 WordCount案例

标签：WordCount hadoop Hadoop job 十五 import apache org log4j

一、需求分析

需求：在给定的文本文件中统计输出每一个单词出现的总次数
SEVENTEEN.txt文本内容如下：

say the name seventeen
hello
we are seventeen
nice to meet you
you
very nice

按照MapReduce编程规范，分别编写Mapper，Reducer，Driver

1、Mapper
（1）将MapTask传过来的文本内容先转换成String
（2）根据空格将这一行切分成单词
（3）将单词输出为<单词，1>
2、Reducer
（1）汇总各个key的个数
（2）输出该key的总次数
3、Driver
（1）获取配置信息，获取job对象实例
（2）指定本程序的jar包所在的本地路径
（3）关联Mapper/Reducer业务类
（4）指定Mapper输出数据的kv类型
（5）指定最终输出的数据的kv类型
（6）指定job的输入原始文件所在目录
（7）指定job的输出结果所在目录
（8）提交作业

二、环境准备

1、创建maven工程，MapReduceDemo
2、在pom.xml文件中添加如下依赖

<dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>3.1.3</version>
        </dependency>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.12</version>
        </dependency>
        <dependency>
            <groupId>org.slf4j</groupId>
            <artifactId>slf4j-log4j12</artifactId>
            <version>1.7.30</version>
        </dependency>
</dependencies>

3、在项目的src/main/resources目录下，新建一个文件，命名为“log4j.properties”，在文件中填入

log4j.rootLogger=INFO, stdout 
log4j.appender.stdout=org.apache.log4j.ConsoleAppender 
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout 
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n 
log4j.appender.logfile=org.apache.log4j.FileAppender 
log4j.appender.logfile.File=target/spring.log 
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout 
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

4、创建包名：com.user.mapreduce.wordcount

三、编写程序

1、编写Mapper类

package com.user.mapreduce.wordcount;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
    Text k = new Text();
    IntWritable v = new IntWritable(1);
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
// 1 获取一行
        String line = value.toString();
// 2 切割
        String[] words = line.split(" ");
// 3 输出
        for (String word : words) {
            k.set(word);
            context.write(k, v);
        }
    }
}

2、编写Reducer类

package com.user.mapreduce.wordcount;

import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{
    int sum;
    IntWritable v = new IntWritable();
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException {
// 1 累加求和
        sum = 0;
        for (IntWritable count : values) {
            sum += count.get();
        }
// 2 输出
        v.set(sum);
        context.write(key,v);
    }
}

3、编写Driver驱动类

package com.user.mapreduce.wordcount;

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class WordCountDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
// 1 获取配置信息以及获取 job 对象
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);
// 2 关联本 Driver 程序的 jar
        job.setJarByClass(WordCountDriver.class);
// 3 关联 Mapper 和 Reducer 的 jar
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);
// 4 设置 Mapper 输出的 kv 类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
// 5 设置最终输出 kv 类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
// 6 设置输入和输出路径
        FileInputFormat.setInputPaths(job, new Path("C:\\Users\\shi.hongpin\\Desktop\\SEVENTEEN.txt"));
        FileOutputFormat.setOutputPath(job, new Path("D:\\hadoop\\output"));
// 7 提交 job
        boolean result = job.waitForCompletion(true);
        System.exit(result ? 0 : 1);
    }
}

打包成jar包，到虚拟机运行，输入输出路径要修改为：

FileInputFormat.setInputPaths(job, new Path(arg[0]));
FileOutputFormat.setOutputPath(job, new Path(arg[1]));

5、本地运行成功后在对应的输出路径能看到输出结果

are	1
hello	1
meet	1
name	1
nice	2
say	1
seventeen	2
the	1
to	1
very	1
we	1
you	2

四、提交到集群测试

1、用maven打jar包，需要添加的打包插件依赖

<build>
        <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.6.1</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>
            <plugin>
                <artifactId>maven-assembly-plugin</artifactId>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                    <executions>
                        <execution>
                            <id>make-assembly</id>
                            <phase>package</phase>
                            <goals>
                                <goal>single</goal>
                            </goals>
                        </execution>
                    </executions>
                </configuration>
            </plugin>
        </plugins>
    </build>

2、将程序打包成jar包，修改名称为wc.jar，并将其拷贝到Hadoop集群/opt/module/hadoop-3.1.3 路径
3、执行WordCount程序

[user@hadoop102 hadoop-3.1.3]$ hadoop jar wc.jar com.user.mapreduce.wordcount.WordCountDriver /SEVENTEEN.txt /wcoutput5

使用JavaApi实现离线文本上传

标签：WordCount,hadoop,Hadoop,job,十五,import,apache,org,log4j
From： https://www.cnblogs.com/shihongpin/p/18418519

Hadoop（十五）项目考核 WordCount案例

一、需求分析

二、环境准备

三、编写程序

四、提交到集群测试

相关文章

赞助商

阅读排行