首页 > 其他分享 >使用hadoop进行单词统计

使用hadoop进行单词统计

时间:2023-08-26 11:11:54浏览次数:30  
标签:bin jar hadoop dfs 单词 词频 txt 统计

1、启动hadoop


启动成功!

2、将result.txt文件放到/root/software/hadoop-3.0.0下面(txt文件为已经分好词的文件)

3、利用hadoop自带的jar包wordcount计算词频

1、创建一个文件夹存放需要计算词频的文件

bin/hdfs dfs -mkdir -p  /input

2、把需要计算词频的文件放到刚刚创建的文件夹下面

bin/hdfs dfs -put result.txt  /input

3、查看txt文件是否存放进去

bin/hdfs dfs -ls  /input


已经放进去啦!

4、使用jar包中的wordcount计算词频

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0.jar wordcount  /input/result.txt  /out/hlmcount

需要注意的是,jar包的版本可能会有所不同,根据自身实际更改即可

等待计算完成:

计算完成:

5、查看输出结果

bin/hdfs dfs -cat /out/hlmcount/part-r-00000

计算结果如下:

完成!!!

标签:bin,jar,hadoop,dfs,单词,词频,txt,统计
From: https://www.cnblogs.com/liuzijin/p/17658466.html

相关文章

  • 统计分析 -- 聚类算法模型
    统计分析--聚类算法模型距离分析数据标准化欧氏距离与量纲有关,因此,有时需要对数据进行预处理,如标准化等。在MATLAB中的命令是zscore,调用格式Z=zscore(X)输入X表示N行p列的原始观测矩阵,行为个体,列为指标。输出Z为X的标准化矩阵:Z=(X–ones(N,1)*mean(X))./(ones(N,1)*......
  • 力扣---1448. 统计二叉树中好节点的数目
    给你一棵根为 root 的二叉树,请你返回二叉树中好节点的数目。「好节点」X定义为:从根到该节点X所经过的节点中,没有任何节点的值大于X的值。 示例1:输入:root=[3,1,4,3,null,1,5]输出:4解释:图中蓝色节点为好节点。根节点(3)永远是个好节点。节点4->(3,4)是路......
  • python练习题01 碱基统计
     001、测试序列,碱基序列保存只a.fa文件中,统计下面这段序列中A、C、G、T碱基的个数[root@PC1test01]#lsa.fa[root@PC1test01]#cata.fa##测试fasta文件AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGC 002、利用基本循环统计[ro......
  • Hadoop 和 Spark 简介
    Hadoop和Spark简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop过去一直是大数据的经典解决方案,它包含两个部分:HadoopHDFS和HadoopMapReduce,分别是......
  • Linux CPU 使用率统计
    CPU使用率统计脚本:for((i=0;i<10000;++i))dotop-n1|awk-F'[,|]+'/'%Cpu'/'{printf("%s%.01f\n",strftime("[%Y-%m-%d%H:%M:%S]",systime()),100-$11);}';sleep1;done运行效果:$for((i=0;i<10000;++i))do......
  • 【LeetCode1】统计参与通信的服务器
    【题目】这里有一幅服务器分布图,服务器的位置标识在m*n的整数矩阵网格grid中,1表示单元格上有服务器,0表示没有。如果两台服务器位于同一行或者同一列,我们就认为它们之间可以进行通信。请你统计并返回能够与至少一台其他服务器进行通信的服务器的数量。【示例一】......
  • LC1782 统计点对的数目
    隐藏在图论里的双指针问题。一个很容易想到的思路是,枚举每一条边,算出各个点的入度\(deg_i\),同时用哈希表统计重边数量;然后,对于每个询问,枚举点对,求出\(deg_x+deg_y-重边数量\)。这样做的复杂度是\(O(m+qn^2)\),怎么优化?关注这个复杂度中的\(n^2\),它所做的事情可以抽象为:统计在......
  • HadoopYarn模式集群安装
    Hadoop集群安装步骤1.Hadoop集群安装1.1环境说明集群:三台Linux机器(SUSE);JDK1.8(提前下载好对应的tar.gz)Hadoop2.7.2(提前下载好对应的tar.gz)以下所有配置需要在每个主机上进行,但按照本文配置,可配置一个以后复制过去,完全相同,不用修改。1.2同步时......
  • Hadoop概念地图
    Hadoop发展史及生态圈1,hadoop的发展史,基于GFS,MAPREDUCE,BIGDATA---->Hive2,hadoop生态圈。core,hdfs,mapreduce,hive,zookeeper.hbase,kafka,Flume,Sqoop,Mahout,Pig等3,hadoop版本,并行的基线,1.x和2.XHDFS1,分布式文件系统以及与传统型数据库的比较2,hdfs作用3,hdfs原理(把......
  • WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platfo
    问题描述使用start-dfs.sh命令开启hdfs服务时,爆出这样的警告信息问题解决可以先进入到我们下载hadoop的文件目录下,然后进入到这个文件里面:vimetc/hadoop/log4j.properties然后将下面的语句添加到问年末尾处:log4j.logger.org.apache.hadoop.util.NativeCodeLoader=ERROR......