首页 > 其他分享 >apache spark connect 试用

apache spark connect 试用

时间:2023-08-22 22:14:22浏览次数:243  
标签:datetime 2000 connect apache spark Row

spark connect 3.4 开始就支持了connect 模式,3.4.1 比较稳定了

connect server 启动

实际上就是一个spark 引用,通过spark_submit 提交到spark 环境中

  • 启动
./sbin/start-connect-server.sh --packages org.apache.spark:spark-connect_2.12:3.4.1
  • 查看效果

应该会有一个java 进程

 

  • 页面效果

 

python 应用

需要按足昂pyspark 同时可能需要一些其他的依赖包,比如grpcio,运行环境基于了venv

  • app.py
 
from pyspark.sql import SparkSession
from datetime import datetime, date
from pyspark.sql import Row
spark = SparkSession.builder.remote("sc://localhost:15002").getOrCreate()
df = spark.createDataFrame([
    Row(a=1, b=2., c='string1', d=date(2000, 1, 1), e=datetime(2000, 1, 1, 12, 0)),
    Row(a=2, b=3., c='string2', d=date(2000, 2, 1), e=datetime(2000, 1, 2, 12, 0)),
    Row(a=4, b=5., c='string3', d=date(2000, 3, 1), e=datetime(2000, 1, 3, 12, 0))
])
df.show()
  • 效果

 

  • 监控页面

job 任务

 

说明

可能运行需要以来一个pip 包,按照提示安装即可,spark connect 还是很强大的,但是目前conect 缺少安全访问,通信协议上使用了grpc,这个具体可以看看官方的一些介绍,基于connect 可以简化spark的访问,对于开发以及调试也比较友好,目前我是基于本地模式
运行的,yarn 模式应该也是没有问题的,但是k8s 模式还需要测试, 后边我整理下测试结果

参考资料

https://www.databricks.com/blog/2022/07/07/introducing-spark-connect-the-power-of-apache-spark-everywhere.html
https://spark.apache.org/docs/latest/api/python/getting_started/quickstart_connect.html
https://stackoverflow.com/questions/36183486/importerror-no-module-named-google

标签:datetime,2000,connect,apache,spark,Row
From: https://www.cnblogs.com/rongfengliang/p/17649821.html

相关文章

  • 使用Apache IoTDB进行IoT相关开发的架构设计与功能实现(3)
    使用ApacheIoTDB进行IoT相关开发的架构设计与功能实现(3)接下来我给大家继续介绍一下ApacheIoTDB的数据类型和相关用法在显示时间戳时,IoTDB可以支持长类型和日期时间显示类型。日期时间显示类型可以支持用户定义的时间格式。自定义时间格式的语法如下表所示:**自定义时间格式的语......
  • 无涯教程-PHP Installation on Windows NT/2000/XP with Apache函数
    要在Windows上使用PHP5安装Apache,请执行以下步骤。如果您的PHP和Apache版本不同,请相应注意。从www.apache.org/dist/httpd/binaries/win32下载Apache服务器。您需要具有no_src.msi扩展名的当前稳定发行版。双击安装程序文件进行安装;C:\ProgramFiles是一个常见的位置。安装......
  • Linux Apache2如何开启SSL https 443
    对于新手来说,配置SSL似乎是意见很麻烦的事情。首先ssl、https是什么,如何生成证书,如何生成可信任的证书(https打开为绿色无警告)。他们默认使用443端口,也可以手动配置为其他端口。apache系的配置文本文件又鬼™麻烦,看都看不懂。最头疼的是,不同的lamp平台,设置的地方还不一样。这里......
  • spark on k8s 开发部署简单实践
    实际上就是一个简单的实践,方便参考,对于开发以及运行,集成ci/cd以及dophinscheduler任务调度为了方便开发的spark应用共享以及使用基于s3进行文件存储(当然dophinscheduler也是支持自己的资源库的)参考图 玩法说明基于gitlab进行代码管理,通过ci/cd进行sparkapp的构建,同......
  • 在windows上安装Apache Kafka的详细步骤
    在Windows上安装ApacheKafka的步骤如下:步骤1:下载和解压1.打开ApacheKafka的官方网站:https://kafka.apache.org/downloads2.在下载页面下方找到“Binarydownloads”,找到最新版本的Kafka,点击下载。3.下载完成后,解压压缩包到你想要安装的目录。步骤2:配置环境变量1.打开系......
  • 轻松实现Apache,Tomcat集群和负载均衡
    环境说明      Apache :apache_2.0.55    1个       Tomcat: apache-tomcat-5.5.17(zip版)2个       mod_jk::mod_jk-apache-2.0.55.so 1个第一部分:负载均衡   负载均衡,就是apache将客户请求均衡的分给tomcat1,tomcat2....去处理  1.安......
  • Apache DolphinScheduler 支持使用 OceanBase 作为元数据库啦!
    DolphinScheduler是一个开源的分布式任务调度系统,拥有分布式架构、多任务类型、可视化操作、分布式调度和高可用等特性,适用于大规模分布式任务调度的场景。目前DolphinScheduler支持的元数据库有Mysql、PostgreSQL、H2,如果在业务中需要更好的性能和扩展性,可以在DolphinScheduler......
  • ETL之apache hop数据增量同步功能
    ETL增量数据抽取CDC概念:ChangeDataCapture,变化的数据捕获,也称:【增量数据抽取】(名词解释)CDC是一种实现数据的增量抽取解决方案,是实现【ETL整体解决方案】中的一项子方案/子问题。(对CDC的定位)如何捕获变化的数据是增量抽取的关键,对捕获方法一般有2点要求:准确性:能够将业务系......
  • MySQL告警"[Warning] Connection attributes of length 571 were truncated"
     有时候会在mysql的错误日志中看到如下报错"[Warning]Connectionattributesoflength571weretruncated"。比如:2023-08-20T13:23:15.265489Z47753433[Warning]Connectionattributesoflength571weretruncated2023-08-20T13:23:15.274938Z47425089[Warning]C......
  • 大数据技术Spark之RDD基础编程
    大数据技术Spark之RDD基础编程RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。一、RDD的两种创建方式从集合(内存)中创建RDD从集合中创建RDD,Sp......