Spark 是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台之一。
Spark作为一个计算平台并不是作为一个数据库不像hive以及mysql一样可以直接远程连接DataGrip使用,本篇就展示如何使用DataGrip使用hive作为数据源编写Spark代码查询hive数据库
首先确保你的hive以及Spark可以正常使用
本篇使用三台机器的集群配置spark_yarn模式
测试hive能否正常使用
-
首先,确保你已经安装了 Hive,并且配置了正确的环境变量。
-
打开终端或命令行界面,输入 "hive" 命令来启动 Hive CLI(命令行界面)。
-
出现以下界面表示已经安装了hive
-
还可以编写简单的hive代码来测试
测试spark能否正常使用
1. 启动HDFS以及yarn以及HiveMetaStore 服务
2. 运行spark-sql --master yarn --conf spark.sql.shuffle.partitions=2命令
出现可以编写的
3.可以写一些简单语句来测试
如果上述都没有问题接下来开始连接
输入如下命令
/opt/installs/spark/sbin/start-thriftserver.sh \
--hiveconf hive.server2.thrift.port=10001 \
--hiveconf hive.server2.thrift.bind.host=bigdata \
--master yarn \
--conf spark.sql.shuffle.partitions=2
/opt/installs/spark是安装路径
10001是你指定的端口号
bigdata是你的主机名
运行完毕后可以netstat -nltp | grep 10001查看端口10001运行的程序的进程号
然后ps-ef | grep 进程号 查看是否启动
启动成功即可连接DataGrip
出现如下
表明连接成功
接下来开始将数据源设置成hive数据库的数据源
1.在hive 下修改hive-site.xml
添加
<property>
<name>hive.metastore.schema.verification</name>
<value>false</value>
</property>
2.将hive-site.xml 复制到 spark的conf 下
cp /opt/installs/hive/conf/hive-site.xml /opt/installs/spark/conf
3.修改spark下的hive-site.xml
添加
<property>
<name>hive.server2.thrift.port</name>
<value>10001</value>
<description>Port number of HiveServer2 Thrift interface when hive.server2.transport.mode is 'binary'.</description>
</property>
4.分发到其余两台机器
xsync.sh /opt/installs/spark/conf/hive-site.xml
5.重启thrift服务
/opt/installs/spark/sbin/stop-thriftserver.sh
/opt/installs/spark/sbin/start-thriftserver.sh --hiveconf hive.server2.thrift.port=10001 --hiveconf hive.server2.thrift.bind.host=bigdata --master yarn --conf spark.sql.shuffle.partitions=2
使用datagrip 重新连接一下,记得刷新一下连接。
标签:opt,DataGrip,--,数据源,hive,installs,conf,spark From: https://blog.csdn.net/qq_62049041/article/details/143577712