pyspark 连接hive

时间：2023-10-19 10:55:53浏览次数：44

标签：文件夹 pyspark hive 连接 metastore spark uris

pyspark连接hive

想要spark能够连接上hive，就需要将hive的一些配置文件放到spark中，让spark可以通过配置文件中的metastore.uris找到hive的元数据库，从而访问hive.

1.将hive的conf文件夹下的hive-site.xml，复制到本地spark的conf文件夹中：

2.将hive的lib文件夹下的mysql连接包mysql-connector-java.jar复制到本地spark的jars文件夹中

3.修改hosts

在C:\Windows\System32\drivers\etc中修改HOSTS文件，在下方添加虚拟机的地址

4.测试链接

from pyspark.sql import SparkSession


# 构建SparkSession执行环境入口对象
spark = SparkSession.builder.\
    appName("spark_sql").\
    config("hive.metastore.uris", "thrift://hadoopm111:9083").\
    master("local[*]").\
    enableHiveSupport().\
    getOrCreate()

spark.sql("show databases").show()

如果只能读取到一个 default 默认数据库。

很明显是我们现在的 client 端还并没有得到 hive metastore 数据库的数据。无法知晓现在 hive 数据库的情况。

所以我们需要为其添加一些参数让他能读取到 hive 的 metastore，通过访问 hive 的 metastore.uris 就可以用获取

config("hive.metastore.uris", "thrift://hadoopm111:9083")

标签：文件夹,pyspark,hive,连接,metastore,spark,uris
From： https://www.cnblogs.com/whiteY/p/17774218.html

SVN一直报错Error running context: 由于目标计算机积极拒绝，无法连接。解决办法【杭州
一、发现SVN一直报错Errorrunningcontext:由于目标计算机积极拒绝，无法连接。二、没有启动 VisualSVN Server。cmd--> services.msc打开本地服务。查看VisualSVN的三个服务的启动类型，建议选择“手动”，不能选择“禁用”，选择“自动”开机启动耗内存，因为是Java写的插件，要启......
idea和数据库连接
1.加载驱动ClassforName2.连接数据库DriverManager.getConnectionconnection代表数据库数据库设置自动提交事务提交事务回滚3.获得执行sql的对象connection.createStatement();4.获得返回的结果集ResultSet查询的结果集：封装了所有的查询结果//ResultSet.getString();......
QT连接OpenCV库实现人脸识别
QT连接OpenCV库实现人脸识别_opencvqt人脸识别-CSDN博客 #include"mainwindow.h"#include<QApplication>#include<opencv2/opencv.hpp>#include<QMessageBox>usingnamespacestd;usingnamespacecv;intmain(intargc,char*argv[]){QAp......
数据库连接池
主要目的都是一样的包括套接字连接池避免频繁创建和销毁由来客户端登录服务器去数据库查询这时就可以把服务器看做是数据库的客户端。一直保持和数据库的连接可以吗？可以但是需要服务器的一个线程来维持，又不做事。耗费资源一个数据库连接需要什么呢不仅少非自愿......
Mysql 连接池配置问题
使用SglSugar BulkCopy方法进行大批量插入时一直报错，检查了实体、数据库字段属性都无异常，最后发现数据库连接中配置了 AllowZeroDatetime=true;ConvertZeroDateTime= true;注释后异常解决。 AllowZeroDatetime=true，可以解决的是Mysql中datetime默认值为0000-00......
HBase-通过外部表将Hive数据写入到HBase
a)准备测试数据这里准备的csv文件data_test.csv,内容没用''包裹,逗号作为列分隔符171301,燕青,男,27,发展部171207,武松,男,39,开发部171307,李逵,男,41,开发部320812,宋江,男,45,战略部321009,顾大嫂,女,38,后勤部171312,卢俊义,男,43,发展部 b)hbase创建表creat......
苹果应用打开显示连接服务器失败是什么原因？怎么解决？
大家好，我是咕噜-凯撒，在我们使用苹果设备的过程中，不知道你们有没有遇到过打开应用时候，跳出来一个连接服务器失败的提示信息，这提示不仅令人脑袋大，也影响用户的体验，那到底是什么原因导致的呢，咋解决这个问题呢，下面我自己总结了一下。图片来源：news.gulufenfa.com首先，网络问题可能是导致......
redis普通连接和连接池， redis字符串类型，redis hash类型， redis列表类型
1redis普通连接和连接池......
springboot连接rabbitmq网络异常时，不能自动重连的问题
在rabbitmq官网的javaapi处：https://www.rabbitmq.com/api-guide.html#recovery介绍了java连接rabbitmq异常恢复的问题。其中提及了如下内容Asofversion4.0.0oftheJavaclient,automaticrecoveryisenabledbydefault(andthustopologyrecoveryaswell).也就是......
软件测试|深入理解SQL CROSS JOIN：交叉连接
简介在SQL查询中，CROSSJOIN是一种用于从两个或多个表中获取所有可能组合的连接方式。它不依赖于任何关联条件，而是返回两个表中的每一行与另一个表中的每一行的所有组合。CROSSJOIN可以用于生成笛卡尔积，它在某些情况下非常有用，但在其他情况下可能会导致结果集过大。在本文中，我们......