首页 > 其他分享 >第1章 Hive基本概念

第1章 Hive基本概念

时间:2024-03-27 23:22:06浏览次数:25  
标签:1.2 MapReduce Hive HQL SQL 数据 基本概念

1.1 什么是Hive

  1. hive简介
  • Hive:由facebook开源用于解决海量结构化日志的数据统计工具。
  • Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL的查询功能。
    2) Hive本质:将HQL转化成MapReduce程序。
    image

3) Hive的三个要点:

  • Hive处理的数据存储在HDFS
  • Hive分析数据底层的实现是MapReduce
  • 执行程序运行在Yarn上

1.2 Hive优缺点

1.2.1 优点

  • 操作接口采用类SQL,快速开发。
  • Hive的执行延迟比较高,常用于数据分析,对实时性要求不高。
  • Hive用于处理大数据,对小数据没有优势。
  • Hive支持用户自定义函数。

1.2.2 缺点

(1)Hive的HQL表达能力有限

  • 迭代式算法无法表达
  • 数据挖掘方面不擅长,由于MapReduce数据处理流程的限制,无法实现效率更高的算法。
    (2)Hive的效率比较低
  • Hive自动生成的MapReduce作业,通常不够智能化
  • Hive调优比较困难

标签:1.2,MapReduce,Hive,HQL,SQL,数据,基本概念
From: https://www.cnblogs.com/yuyingblogs/p/18100556

相关文章

  • 卷积神经网络的基本概念——【1】卷积和池化
        卷积神经网络利用滤波器(即内核)来检测图像中展示的特征,例如边缘。卷积神经网络四个主要的操作如下:    卷积    非线性(ReLU)    池化或子采样(SubSampling)    分类(全连接层)一、卷积    卷积是两股信息源交织在一起的......
  • Hive 刷题——累计占比问题
    问题描述现在有一张每个年份的每个部门的收入表。现在需要算每个部门的收入占同类型部门的收入的占比和当年整个公司的收入占比。要求一条SQL计算出来。比如研发部和产品部属于同类型的,都是产研;财务部和人事部都属于职能。yeardeptincome2024研发部50002024......
  • Dapr - 基本概念 【深入官网】
    Dapr使用sidecar架构,与应用程序一起作为单独的流程运行,包括服务调用、网络安全和分布式跟踪等功能1共同点:基于mTLS加密的服务到服务安全通信服务到服务的度量指标收集服务到服务分布式跟踪故障重试恢复能力2不同点:Dapr以开发人员为中心,提供了通过名称进行服务发......
  • 搭建hive环境,并解决后启动hive命令报 hive: command not found的问题
    一、问题解决 1、问题复现2、解决问题        查阅资料得知该问题大部分是环境变量配置出了问题,我就输入以下命令进入配置文件检查自己的环境变量配置:[root@node03~]#vi/etc/profile        检查发现自己的hive配置没有问题 ,于是我就退出,然后更新......
  • Ubuntu实现Hive与HBase的安装与配置(单机)
    (一)Hive的安装与配置 Hive下载链接:https://mirrors.bfsu.edu.cn/apache/hive/(1)将下载好的Hive文件(版本:3.1.2)解压到/usr/local目录下sudotar-zxvf./apache-hive-3.1.2-bin.tar.gz-C/usr/local(2)切换至目录/usr/local,将文件夹名改为hive,并且修改文件权限给本账户cd/......
  • Hive-技术补充-ANTLR语法编写
    一、导读我们学习一门语言,或外语或编程语言,是不是都是要先学语法,想想这些语言有哪些相同点    1、中文、英语、日语......是不是都有主谓宾的规则    2、c、java、python、js......是不是都有数据类型、循环等语法或数据结构虽然人们在过去的几十年里......
  • hive 、spark 、flink之想一想
    hive1:hive是怎么产生的?2:hive的框架是怎么样的?3:hive执行流程是什么?4:hivesql是如何把sql语句一步一步到最后执行的?5:hivesql任务常用参数调优做过什么?spark6:spark是怎么产生的?7:spark框架是怎么样的?8:spark的DAG是什么?9:spark中的app,job,stage,task是什么?有什么好处?......
  • JAVA面向对象基本概念、类和对象
    基本概念一、什么是面向对象面向对象是一种编程思想面向对象是一种思考问题的思维方式二、建立面向对象的思维方式先整体,在局部;先抽象,在具体;能做什么,再做什么类和对象类是分类类别,通过分类可以区分不同事物种类类是具有一组相同特征(属性)与行为(方法)的事物集合类和对象的......
  • Hive 时间戳日期函数总结
    说明基于Hive的数据开发工作中,常常用到时间戳,日期各种格式转换,今天抽时间梳理一下。1. 获取当前UNIX时间戳函数:unix_timestampselectunix_timestamp();17112685562、UNIX时间戳转日期函数:from_unixtimeselectfrom_unixtime(1711268371,'yyyyMMdd');--20240324......
  • 01.绝对路径和相对路径(Linux基本概念)
    基础认知:        电脑的目录结构是一颗多叉树。不管是Linux还是windows,目录结构都是一样的。所以我们在查找某个目录或者文件的时候,本质就是在多叉树结点的查找。多叉树示例图如下:                ​​​​​​​        ​​​​​​​  ......