Spark-SQL 写代码方式

1、在IDEA中将代码编写好打包上传到集群中运行（上线使用）

使用spark-submit提交
2、spark-shell (repl) 里面使用sqlContext 测试使用，简单任务使用

spark-shell --master yarn-client

不能使用yarn-cluster
3、spark-sql

spark-sql --master yarn-client

不能使用yarn-cluster
4、整合hive 使用hive的元数据

在hive的hive-site.xml修改一行配置

在使用之前都需要先启动元数据服务

<property>
  <name>hive.metastore.uris</name>
  <value>thrift://master:9083</value>
</property>

将hive-site.xml 复制到spark conf目录下

cp /usr/local/soft/hive-1.2.1/conf/hive-site.xml /usr/local/soft/spark-2.4.5/conf/
启动hive元数据服务

hive --service metastore（推荐更方便查看日志）

或

nohup hive --service metastore >> metastore.log 2>&1 &
将mysql 驱动包复制到spark jars目录下

cp /usr/local/soft/hive-1.2.1/lib/mysql-connector-java-5.1.49.jar /usr/local/soft/spark-2.4.5/jars/
整合好之后在spark-sql 里面就可以使用hive的表了

不能使用yarn-cluster模式

spark-sql --master yarn-client --conf spark.sql.shuffle.partitions=2
- 在spark-sql中设置运行参数
  
  set spark.sql.shuffle.partitions=2;

建表

create table student(
id  string,
name string,
age int,
gender string,
clazz string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
STORED AS textfile
location '/data/spark/stu/input/';

create external table score(
student_id  string,
cource_id string,
sco int
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
STORED AS textfile
location '/data/spark/score/input/';

在idea中实现需要将hive-site.xml拉进idea项目的resource中（使用sz hive-site.xml命令把文件拉到桌面，然后放进idea里）
需要在idea中添加pom依赖

            <dependency>
                 <groupId>org.apache.spark</groupId>
                 <artifactId>spark-hive_2.11</artifactId>
                 <version>${spark.version}</version>
             </dependency>

查询

1、统计每个班级前三名

select  tt1.id
        ,tt1.name
        ,tt1.clazz
        ,tt1.sum_score
        ,tt1.rn
from (
    select  t1.id
            ,t1.name
            ,t1.clazz
            ,t2.sum_score
            ,row_number() over(partition by t1.clazz order by t2.sum_score desc) as rn
    from student t1
    join (
        select  student_id as id
                ,sum(sco) as sum_score
        from score
        group by student_id
    ) t2 on t1.id = t2.id
) tt1 where tt1.rn <= 3;

标签：tt1,hive,id,score,整合,sql,spark,Spark
From： https://www.cnblogs.com/wqy1027/p/16837162.html

SpringCloud微服务实战——搭建企业级开发框架（四十八）：【移动开发】整合uni-app搭建移动
uni-app默认使用uni-ui全端兼容的、高性能UI框架，在我们开发过程中可以满足大部分的需求了，并且如果是为了兼容性，还是强烈建议使用uni-ui作为UI框架使用。如果作为......
SpringBoot中整合Shiro+Mybatis+Thymeleaf框架实现用户登录以及权限的验证（超级详细过
1、建立springboot项目目录结构2、项目的jar包依赖在pom文件中加入jar包依赖<dependencies><!--整合shirosubject:用户security......
knife4j 整合springboot
1.添加依赖<dependency><groupId>com.github.xiaoymin</groupId><artifactId>knife4j-spring-boot-starter</artifactId></dependency> 2.配置类packag......
Maven 依赖整合
代码模板快速启动脚手架(仅供参考)GitHub代码地址通用的依赖<dependencies><dependency><groupId>org.s......
Hive实战
1．使用hive实现WordCount(1) 创建数据库createdatabasewordcount;(2) 创建外部表createexternaltableword_data(linestring)rowformatdelimitedfieldst......
Hive调优
1．Fetch抓取Fetch抓取是指Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT*FROMemployees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文......
Spark SQL概述、函数用法
SparkSQL 底层还是基于RDD的，常用的语言DSL底层架构在idea中的操作引入pom依赖<dependency><groupId>org.apache.spark</gr......
SparkSQL(二)
【理解】SparkSQL执行流程接收到查询，既可以是SQL语句，也可以是DSL语法，以一个SQL语句为例:1、Parser，第三方类库Antlr实现。将sql字符串切分成Token,根据语义规则......
SparkCore(四)
【理解】Spark内核原理RDD依赖RDD的5大特性中，第三个是【与父RDD的依赖关系】依赖关系可以按照是否有shuffle进一步分类窄依赖：【没有】shuffle，父RDD的一个分......
SparkSQL
DataFrame创建DataFrame1.转换为DataFrame方式1将RDD[元组或列表]转换为DataFrame定义RDD，每个元素是Row类型将上面的RDD[Row]转换成DataFrame，df=spark.createDat......

Spark整合hive

Spark-SQL 写代码方式

相关文章

赞助商

阅读排行