(1)通过查阅资料,写出一个或多个MapReduce的具体应用,并谈谈自己对MapReduce的认识。(满分10分)
(2)词频统计任务编程实践,任务要求:在Linux系统本地创建两个文件,即文件wordfile1.txt和wordfile2.txt,文件wordfile1.txt的内容格式如下,需要将zhangsan换成自己名字的英文全拼:
zhangsan loves Spark
zhangsan loves Hadoop
文件wordfile2.txt的内容如下:
Hadoop is good
Spark is fast
请对这两个小数据集样本编写MapReduce词频统计程序,并截图给出统计结果,可参考相关教程https://dblab.xmu.edu.cn/blog/2481/
MapReduce是一种分布式计算框架,用于处理大规模数据集。它最初由Google公司在2004年发明,并在Google搜索引擎上被广泛应用。Google用MapReduce来处理日志文件。日志文件通常很大,如果不进行预处理,单台计算机处理起来可能会非常慢。MapReduce通过将数据分割成小块,然后在多个计算机上并行处理,大大提高了处理速度。
标签:20231026,文件,Google,MapReduce,词频,txt,zhangsan From: https://www.cnblogs.com/lvxiaotong/p/17768720.html