首页 > 编程语言 >编写HiveQL语句实现WordCount算法

编写HiveQL语句实现WordCount算法

时间:2024-10-21 20:42:31浏览次数:1  
标签:语句 count word HiveQL docs WordCount input txt HDFS

确保启动hadooop 和hive

 

 

创建测试文件

echo "hello world" > file1.txt echo "hello hadoop" > file2.txt # 创建HDFS上的/input目录 hdfs dfs -mkdir -p /input # 将本地文件上传到HDFS hdfs dfs -put file1.txt /input/ hdfs dfs -put file2.txt /input/


打开Hive shell
输入以下命令创建一个名为docs的临时表:
CREATE TABLE docs(line STRING);

将HDFS上的/input目录下的所有文件加载到docs表中。由于HDFS中已经有/input目录,您可以使用以下命令将其加载到Hive表中:
LOAD DATA INPATH '/input' INTO TABLE docs;

接下来,创建一个名为word_count的新表,用于存储词频统计结果。输入以下HiveQL命令:
CREATE TABLE word_count AS SELECT word, COUNT(1) AS count FROM (SELECT explode(split(line, '')) AS word FROM docs) w GROUP BY word ORDER BY word;

最后,使用select语句查看word_count表中的数据,得到词频统计结果
SELECT * FROM word_count;

标签:语句,count,word,HiveQL,docs,WordCount,input,txt,HDFS
From: https://www.cnblogs.com/youxiandechilun/p/18490341

相关文章

  • 数据库系统-06-SQL查询语句4
    一、AggregateFunctions(聚集函数)1.定义:聚合函数接受一组(集合或多重集合)值作为输入,并返回单个值。2.种类函数功能count统计数量max最大值min最小值avg平均值sum求和二、基本的聚合1.语法:select 聚合函数(字段列表)from 表名;例1:找出计算......
  • 数据库系统-07-SQL查询语句5-嵌套子查询
    一、嵌套子查询1.概念:子查询是嵌套在另一个查询中的select-from-where表达式。子查询通常被用来对集合成员资格、集合的比较以及集合的基数进行检查2.集合的成员资格(1)概念:SQL允许测试元组在关系中的成员资格。连接词in测试元组是否是集合中的成员,集合是由select子句产生的......
  • SpringBoot使用默认的日志logback(2)—自定义配置+控制台输出sql语句
    原文链接:SpringBoot使用默认的日志logback(2)—自定义配置+控制台输出sql语句–每天进步一点点上一篇文章中简单介绍了springboot通过系统配置的方式配置日志:SpringBoot使用默认的日志logback(1)—系统配置这篇文章简单介绍一下日志的自定义配置。1.自定义配置springboot......
  • 五,Java控制流程语句最详细笔记
    Java控制流程语句:顺序结构详解在Java编程中,顺序结构是最基本的程序结构之一。它遵循简单的规则:按照代码编写的顺序,自上而下执行。这意味着程序会从上到下依次执行每一行代码,直到最后一行。本文将通过示例代码详细解释顺序结构的概念和应用。顺序结构的概念顺序结构是最简单的程......
  • [包教包会]C语言:详解分支语句(if , switch , goto)和循环语句(while , for , do while
    概览控制语句用于控制程序的执行流程,以实现程序的各种结构方式C语言支持三种结构:顺序结构、选择结构(分支)、循环结构:(其实显示中的事件也都是由这三者混合合成的)它们由特定的语句定义符组成,C语言有九种控制语句。可分成以下三类:1.条件判断语句也叫分支语句:if语句......
  • 测开必备-java基础-for循环语句的用法
    什么是for循环?for循环的基本结构什么是for循环?for循环是一种编程中的控制结构,它允许你重复执行一段代码固定的次数。当你需要执行一系列重复的任务时,for循环就非常有用。for循环的基本结构在Java中,for循环的基本结构如下:for (初始化表达式; 循环条件; 步进表达式) {  ......
  • 我在创建表时,建表语句中不同数据类型字段的排列顺序对性能有影响吗?
    在MySQL或其他数据库管理系统(DBMS)中,字段的排列顺序对表的性能影响并不是非常显著或直接的,但在某些特定情况下,优化字段排列可以带来一些性能或存储效率上的好处。以下是一些需要考虑的因素,尤其是当涉及大量数据和性能优化时。1.数据类型的对齐和存储效率MySQL在存储数据时,试......
  • spark sql语句性能优化及执行计划
    一、优化点:1、notin替换为notexist;2、in替换为rightjoin;3、distinct替换为groupby;4、count(distinct)替换为count;5、where条件中,等号左右两边的数据类型需要一致;6、where条件中,等号左边不要有函数;7、where条件上移;8、优化点需要对照执行计划,并且有实际效果。二、对......
  • 跳转语句中的关键字
    一、continue关键字结束当次循环,直接进入下次循环publicclassContinueDemo{publicstaticvoidmain(String[]args){//continue;//不能单独使用,需要在特定的场景下使用,只能在循环中使用//输出1-10,当遇到5的时候,使用continuefor(inti=1;......
  • Scanner键盘录入和语句结构体
    一、键盘录入importjava.util.Scanner;/*键盘录入:程序运行过程中,用户可以根据自己的需求输入参与运算的值今天只需要掌握如何使用即可,不需要关系细节,后面会再说实现键录入的步骤:1、导包2、创建键盘录入对象3、调用方法实现键盘......