首页 > 其他分享 >如何在DataGrip上使用hive的数据源编写Spark代码

如何在DataGrip上使用hive的数据源编写Spark代码

时间:2024-11-06 19:47:06浏览次数:5  
标签:opt DataGrip -- 数据源 hive installs conf spark

Spark 是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台之一

Spark作为一个计算平台并不是作为一个数据库不像hive以及mysql一样可以直接远程连接DataGrip使用,本篇就展示如何使用DataGrip使用hive作为数据源编写Spark代码查询hive数据库

首先确保你的hive以及Spark可以正常使用

本篇使用三台机器的集群配置spark_yarn模式

测试hive能否正常使用

  1. 首先,确保你已经安装了 Hive,并且配置了正确的环境变量。

  2. 打开终端或命令行界面,输入 "hive" 命令来启动 Hive CLI(命令行界面)。

  3. 出现以下界面表示已经安装了hive

  4. 还可以编写简单的hive代码来测试

测试spark能否正常使用

1. 启动HDFS以及yarn以及HiveMetaStore 服务

2. 运行spark-sql --master yarn --conf spark.sql.shuffle.partitions=2命令

出现可以编写的

3.可以写一些简单语句来测试

如果上述都没有问题接下来开始连接

输入如下命令

/opt/installs/spark/sbin/start-thriftserver.sh \
--hiveconf hive.server2.thrift.port=10001 \
--hiveconf hive.server2.thrift.bind.host=bigdata \
--master yarn \
--conf spark.sql.shuffle.partitions=2

/opt/installs/spark是安装路径

10001是你指定的端口号

bigdata是你的主机名

运行完毕后可以netstat -nltp | grep 10001查看端口10001运行的程序的进程号

然后ps-ef | grep 进程号 查看是否启动

启动成功即可连接DataGrip

出现如下

表明连接成功

接下来开始将数据源设置成hive数据库的数据源

1.在hive 下修改hive-site.xml

添加

<property>
		<name>hive.metastore.schema.verification</name>
		<value>false</value>
	</property>

2.将hive-site.xml 复制到 spark的conf 下

cp /opt/installs/hive/conf/hive-site.xml /opt/installs/spark/conf

3.修改spark下的hive-site.xml

添加

<property>
		<name>hive.server2.thrift.port</name>
		<value>10001</value>
		<description>Port number of HiveServer2 Thrift interface when hive.server2.transport.mode is 'binary'.</description>
	  </property>

4.分发到其余两台机器

xsync.sh /opt/installs/spark/conf/hive-site.xml

5.重启thrift服务

/opt/installs/spark/sbin/stop-thriftserver.sh

/opt/installs/spark/sbin/start-thriftserver.sh --hiveconf hive.server2.thrift.port=10001 --hiveconf hive.server2.thrift.bind.host=bigdata --master yarn --conf spark.sql.shuffle.partitions=2

使用datagrip 重新连接一下,记得刷新一下连接。

标签:opt,DataGrip,--,数据源,hive,installs,conf,spark
From: https://blog.csdn.net/qq_62049041/article/details/143577712

相关文章

  • 《SparkSQL--通过ThriftServer连接DataGrip》
    ThriftServer功能:类似于HiveServer2,负责解析客户端提交的SQL语句,转换成Spark的任务进行执行本质:Spark中的一个特殊的程序,利用程序的资源运行所有SQL,该程序除非手动关闭,否则一直运行 启动服务,该服务不会停止,一直在后台启动,假如启动不了,记得查看日志。/opt/installs/spark/sb......
  • hive基础知识分享(一)
    写在前面今天来学习hive部分的知识。Hive相关概念Hive是什么?ApacheHive是一个基于Hadoop的数据仓库工具,旨在通过SQL类似的查询语言(称为HiveQL)来实现对存储在HDFS(HadoopDistributedFileSystem)中的大规模数据的查询、分析和管理。它为数据分析提供了一种高层次的抽......
  • 实时数仓及olap可视化构建(基于mysql,将maxwell改成seatunnel可以快速达成异构数据源实
    1.OLAP可视化实现(需要提前整合版本)Linux121Linux122Linux123jupyter✔spark✔✔✔python3+SuperSet3.0✔hive✔ClinckHouse✔Kafka✔✔✔Phoenix✔DataX✔maxwell✔Hadoop✔✔✔MySQL✔......
  • hive:外部表和内部表#重要!!!!!!!!!!!!!!!!
    这里写目录标题hive:外部表和内部表举例1内部表:手机里的自带相册应用外部表:云盘里存储照片的文件夹举例2内部表:手机自带的短信收件箱外部表:电子邮箱收件箱hive:外部表和内部表--------------------------------------------DDL建表语句:内部表和外部表----------......
  • @DS注解方式springboot多数据源配置及失效场景解决
    1.使用教程导入依赖<!--多数据源--> <dependency> <groupId>com.baomidou</groupId> <artifactId>dynamic-datasource-spring-boot-starter</artifactId> <version>3.5.0</version> </dependency>123456配置数据源......
  • Hive操作基础(入门篇)
    Hive执行流程Hive架构MetaStore三种服务模式内嵌模式:  优点:配置简单hive命令直接可以使用  缺点:不适用于生产环境,derby和Metastore服务都嵌入在主HiveServer进程中,一个服务只能被一个客户端连接(如果用两个客户端以上就非常浪费资源),且元数据不能......
  • datax抽取mongodb数据到hive
    {"job":{"setting":{"speed":{"channel":3},"errorLimit":{"record":0,"percentage":0.02}},"content":[{"reader":{"name":"mongodbrea......
  • 【Kettle的安装与使用】使用Kettle实现mysql和hive的数据传输(使用Kettle将mysql数据导
    文章目录一、安装1、解压2、修改字符集3、启动二、实战1、将hive数据导入mysql2、将mysql数据导入到hive一、安装Kettle的安装包在文章结尾1、解压在windows中解压到一个非中文路径下2、修改字符集修改spoon.bat文件"-Dfile.encoding=UTF-8"3、启动以......
  • 以外部表 (External Table) 的形式,接入其他数据源
    外部表|StarRockshttps://docs.starrocks.io/zh/docs/data_source/External_table/外部表StarRocks支持以外部表(ExternalTable)的形式,接入其他数据源。外部表指的是保存在其他数据源中的数据表,而StartRocks只保存表对应的元数据,并直接向外部表所在数据源发起查询。目......
  • 013_Hive
    01:Hive基本概念将HQL转换为MapReduce程序:​ Hive的数据存储在Hdfs上​ hive分析数据传递称的实现是MapReduce​ 执行程序运行在YARN上Hive的架构Hive常用于数据分析,对实实时性要求不高Hive和数据库比较​ 查询语言​ 数据存储位置​ 数据更新​ 索引​ 执行......