首页 > 其他分享 >hive on spark

hive on spark

时间:2024-05-13 23:21:50浏览次数:15  
标签:jar hive yarn Hive spark Spark

1 Hive的执行引擎

Hive:专业的数仓软件,可以高效的读写和管理数据集。  

Hive的运行原理:

  ① hive主要是写HQL的 (类SQL,相似度90%,剩下的10%就是HQL里面一些独有的语法)

  ② 写的HQL会根据不同的计算引擎翻译成不同的代码

 

2 数仓搭建技术选型

Spark On Hive:基于Hive的Spark (spark里面内置hive)【效率高一点点 1.5倍】

Hive On Spark:基于Spark的Hive (用的软件是Hive,相当于Spark是Hive运行的必要条件) 【主流】

两者的执行效率还是有区别的

 

3 Hive On Spark原理

Hive安装到哪?

Hive是客户端

  只要机器上有Hadoop的客户端,就可以在上面装Hive

  因为它要用到Hadoop的一些命令

 

Spark也是客户端

  Spark需要追随Hive,所以它们两要安装在同一台机器上

 

Hive通过spark的环境变量SPARK_HOME去找到SparkJarS配置文件

  SPARK_HOME需要只想spark当前所安装的目录

 

如果提交程序到yarn,但是yarn是分布式运算,executor可能分配到yarn上任意一台机器

如果分配到102上,但是我们spark安装在103上,这时候102是没有jar包的

所以就需要配置变量 spark.yarn.jars,这个变量需要指向HDFS的目录

  这个目录里面需要放spark里面的所有jar包(放入到HDFS上)

这是yarn上的app会自动读取这个变量,找到HDFS,将jar包下载下来

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  

标签:jar,hive,yarn,Hive,spark,Spark
From: https://www.cnblogs.com/apple677/p/16373352.html

相关文章

  • Hive计算窗口内的累计值
    一个值得记下来的窗口累计计算办法,使用的情况是:计算某个窗口内的累计值1.ExamplePart1CREATETABLEtest_table(dailyDATE,person_numINT,app_regionSTRING)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'STOREDASTEXTFILE;--一张包含了daily日期、......
  • HiveSQL
    1.表sublime格式化ctrl+kctrl+f--创建学生表DROPTABLEIFEXISTSstudent_info;createtableifnotexistsstudent_info(stu_idstringCOMMENT'学生id',stu_namestringCOMMENT'学生姓名',birthdaystringCOMMENT'出生日期',......
  • Spark - [04] RDD编程
    题记部分 一、RDD编程模型  在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果(count,collect等),或者是向存储系统保存数据(saveAsTextFile......
  • Spark - [03] RDD概述
    RDD,分布式数据集,是Spark中最基本的数据抽象。 一、什么是RDDRDD(ResilientDistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。  二、RDD的属性①一组分区(Partition),即数据......
  • 在 Kubernetes 上运行 Apache Spark 进行大规模数据处理的实践
    在刚刚结束的KubernetesCommunityDay上海站,亚马逊云科技在云原生分论坛分享的“在Kunernets上运行ApacheSpark进行大规模数据处理实践”引起了现场参与者的关注。开发者告诉我们,为了充分利用Kubernetes的高可用设计、弹性,在越来越多的应用场景中,他们选择从Yarn迁移到......
  • Hive中sql语句是如何转换成MapReduce的(面试题)
    Hive中的sql语句是如何转化成MR任务的(面试)元数据存储在数据库中,默认存在自己自带的derby数据库中(derby在Hive启用的时候会占用元数据库,且数据不会共享给客户端,所以1一次只能有一个客户端使用,开了另一个客户端就会连接不上)1)、解析器(SQLParser):将SQL字符串转换成抽象语法树AST(3.......
  • Hive基础命令
    Hive基本操作1、Hive库操作1)创建一个数据库,数据库在HDFS上的默认存储路径是/hive/warehouse/*.dbcreatedatabasetestdb;2)避免要创建的数据库已经存在错误,增加ifnotexists判断。(标准写法)createdatabaseifnotexiststestdb;2、创建数据库以及位置(loccation)create......
  • Hive优化
    hive优化1、hive的随机抓取策略hive中的sql都应该经过解析器,编译器,优化器和执行器产生mapreduce作业进行处理,但是在我们使用过程中,对于一些进行查询之类的任务的时候并没有产生mapreduce任务进行处理,这是因为hive的抓取策略帮我们省略了这个步骤,将split切片的过程体欠安帮我们做......
  • Hive安装与搭建
    Hive安装搭建1、上传解压配置环境变量#1、解压tar-zxvfapache-hive-3.1.2-bin.tar.gz-C/usr/soft/#2、重名名mvapache-hive-3.1.2-binhive-3.1.2#3、配置环境变量vim/etc/profile#4、在最后增加配置exportHIVE_HOME=/usr/local/soft/hive-3.1.2exportPA......
  • hive on spark配置
     hive-site.xml <?xmlversion="1.0"?><?xml-stylesheettype="text/xsl"href="configuration.xsl"?><configuration>  <!--配置Hive保存元数据信息所需的MySQLURL地址-->  <property>    <name>javax......