1 Hive的执行引擎

Hive：专业的数仓软件，可以高效的读写和管理数据集。

Hive的运行原理：

① hive主要是写HQL的（类SQL，相似度90%，剩下的10%就是HQL里面一些独有的语法）

② 写的HQL会根据不同的计算引擎翻译成不同的代码

2 数仓搭建技术选型

Spark On Hive：基于Hive的Spark （spark里面内置hive）【效率高一点点 1.5倍】

Hive On Spark：基于Spark的Hive （用的软件是Hive，相当于Spark是Hive运行的必要条件）【主流】

两者的执行效率还是有区别的

3 Hive On Spark原理

Hive安装到哪？

Hive是客户端

只要机器上有Hadoop的客户端，就可以在上面装Hive

因为它要用到Hadoop的一些命令

Spark也是客户端

Spark需要追随Hive，所以它们两要安装在同一台机器上

Hive通过spark的环境变量SPARK_HOME去找到SparkJarS配置文件

SPARK_HOME需要只想spark当前所安装的目录

如果提交程序到yarn，但是yarn是分布式运算，executor可能分配到yarn上任意一台机器

如果分配到102上，但是我们spark安装在103上，这时候102是没有jar包的

所以就需要配置变量 spark.yarn.jars，这个变量需要指向HDFS的目录

这个目录里面需要放spark里面的所有jar包（放入到HDFS上）

这是yarn上的app会自动读取这个变量，找到HDFS，将jar包下载下来

标签：jar,hive,yarn,Hive,spark,Spark
From： https://www.cnblogs.com/apple677/p/16373352.html

Hive计算窗口内的累计值
一个值得记下来的窗口累计计算办法,使用的情况是:计算某个窗口内的累计值1.ExamplePart1CREATETABLEtest_table(dailyDATE,person_numINT,app_regionSTRING)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'STOREDASTEXTFILE;--一张包含了daily日期、......
HiveSQL
1.表sublime格式化ctrl+kctrl+f--创建学生表DROPTABLEIFEXISTSstudent_info;createtableifnotexistsstudent_info(stu_idstringCOMMENT'学生id',stu_namestringCOMMENT'学生姓名',birthdaystringCOMMENT'出生日期',......
Spark - [04] RDD编程
题记部分一、RDD编程模型在Spark中，RDD被表示为对象，通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后，就可以调用actions触发RDD的计算，action可以是向应用程序返回结果（count，collect等），或者是向存储系统保存数据（saveAsTextFile......
Spark - [03] RDD概述
RDD，分布式数据集，是Spark中最基本的数据抽象。一、什么是RDDRDD（ResilientDistributedDataset）叫做分布式数据集，是Spark中最基本的数据抽象。代码中是一个抽象类，它代表一个不可变、可分区、里面的元素可并行计算的集合。二、RDD的属性①一组分区（Partition），即数据......
在 Kubernetes 上运行 Apache Spark 进行大规模数据处理的实践
在刚刚结束的KubernetesCommunityDay上海站，亚马逊云科技在云原生分论坛分享的“在Kunernets上运行ApacheSpark进行大规模数据处理实践”引起了现场参与者的关注。开发者告诉我们，为了充分利用Kubernetes的高可用设计、弹性，在越来越多的应用场景中，他们选择从Yarn迁移到......
Hive中sql语句是如何转换成MapReduce的（面试题）
Hive中的sql语句是如何转化成MR任务的（面试）元数据存储在数据库中，默认存在自己自带的derby数据库中（derby在Hive启用的时候会占用元数据库，且数据不会共享给客户端，所以1一次只能有一个客户端使用，开了另一个客户端就会连接不上）1)、解析器（SQLParser）：将SQL字符串转换成抽象语法树AST(3.......
Hive基础命令
Hive基本操作1、Hive库操作1）创建一个数据库，数据库在HDFS上的默认存储路径是/hive/warehouse/*.dbcreatedatabasetestdb;2)避免要创建的数据库已经存在错误，增加ifnotexists判断。（标准写法）createdatabaseifnotexiststestdb;2、创建数据库以及位置（loccation）create......
Hive优化
hive优化1、hive的随机抓取策略hive中的sql都应该经过解析器，编译器，优化器和执行器产生mapreduce作业进行处理，但是在我们使用过程中，对于一些进行查询之类的任务的时候并没有产生mapreduce任务进行处理，这是因为hive的抓取策略帮我们省略了这个步骤，将split切片的过程体欠安帮我们做......
Hive安装与搭建
Hive安装搭建1、上传解压配置环境变量#1、解压tar-zxvfapache-hive-3.1.2-bin.tar.gz-C/usr/soft/#2、重名名mvapache-hive-3.1.2-binhive-3.1.2#3、配置环境变量vim/etc/profile#4、在最后增加配置exportHIVE_HOME=/usr/local/soft/hive-3.1.2exportPA......
hive on spark配置
hive-site.xml <?xmlversion="1.0"?><?xml-stylesheettype="text/xsl"href="configuration.xsl"?><configuration>  <property> <name>javax......

hive on spark

1 Hive的执行引擎

2 数仓搭建技术选型

3 Hive On Spark原理

相关文章

赞助商

阅读排行