apache spark connect 试用

时间：2023-08-22 22:14:22浏览次数：256

标签：datetime 2000 connect apache spark Row

spark connect 3.4 开始就支持了connect 模式，3.4.1 比较稳定了

connect server 启动

实际上就是一个spark 引用，通过spark_submit 提交到spark 环境中

启动

./sbin/start-connect-server.sh --packages org.apache.spark:spark-connect_2.12:3.4.1

查看效果

应该会有一个java 进程

页面效果

python 应用

需要按足昂pyspark 同时可能需要一些其他的依赖包，比如grpcio，运行环境基于了venv

app.py

from pyspark.sql import SparkSession

from datetime import datetime, date

from pyspark.sql import Row

spark = SparkSession.builder.remote("sc://localhost:15002").getOrCreate()

df = spark.createDataFrame([

    Row(a=1, b=2., c='string1', d=date(2000, 1, 1), e=datetime(2000, 1, 1, 12, 0)),

    Row(a=2, b=3., c='string2', d=date(2000, 2, 1), e=datetime(2000, 1, 2, 12, 0)),

    Row(a=4, b=5., c='string3', d=date(2000, 3, 1), e=datetime(2000, 1, 3, 12, 0))

])

df.show()

效果

监控页面

job 任务

说明

可能运行需要以来一个pip 包，按照提示安装即可，spark connect 还是很强大的，但是目前conect 缺少安全访问，通信协议上使用了grpc，这个具体可以看看官方的一些介绍，基于connect 可以简化spark的访问，对于开发以及调试也比较友好，目前我是基于本地模式
运行的，yarn 模式应该也是没有问题的，但是k8s 模式还需要测试, 后边我整理下测试结果

参考资料

https://www.databricks.com/blog/2022/07/07/introducing-spark-connect-the-power-of-apache-spark-everywhere.html
https://spark.apache.org/docs/latest/api/python/getting_started/quickstart_connect.html
https://stackoverflow.com/questions/36183486/importerror-no-module-named-google

标签：datetime,2000,connect,apache,spark,Row
From： https://www.cnblogs.com/rongfengliang/p/17649821.html

使用Apache IoTDB进行IoT相关开发的架构设计与功能实现(3)
使用ApacheIoTDB进行IoT相关开发的架构设计与功能实现(3)接下来我给大家继续介绍一下ApacheIoTDB的数据类型和相关用法在显示时间戳时，IoTDB可以支持长类型和日期时间显示类型。日期时间显示类型可以支持用户定义的时间格式。自定义时间格式的语法如下表所示:**自定义时间格式的语......
无涯教程-PHP Installation on Windows NT/2000/XP with Apache函数
要在Windows上使用PHP5安装Apache,请执行以下步骤。如果您的PHP和Apache版本不同,请相应注意。从www.apache.org/dist/httpd/binaries/win32下载Apache服务器。您需要具有no_src.msi扩展名的当前稳定发行版。双击安装程序文件进行安装；C:\ProgramFiles是一个常见的位置。安装......
Linux Apache2如何开启SSL https 443
对于新手来说，配置SSL似乎是意见很麻烦的事情。首先ssl、https是什么，如何生成证书，如何生成可信任的证书（https打开为绿色无警告）。他们默认使用443端口，也可以手动配置为其他端口。apache系的配置文本文件又鬼™麻烦，看都看不懂。最头疼的是，不同的lamp平台，设置的地方还不一样。这里......
spark on k8s 开发部署简单实践
实际上就是一个简单的实践，方便参考，对于开发以及运行，集成ci/cd以及dophinscheduler任务调度为了方便开发的spark应用共享以及使用基于s3进行文件存储（当然dophinscheduler也是支持自己的资源库的）参考图玩法说明基于gitlab进行代码管理，通过ci/cd进行sparkapp的构建，同......
在windows上安装Apache Kafka的详细步骤
在Windows上安装ApacheKafka的步骤如下：步骤1：下载和解压1.打开ApacheKafka的官方网站：https://kafka.apache.org/downloads2.在下载页面下方找到“Binarydownloads”，找到最新版本的Kafka，点击下载。3.下载完成后，解压压缩包到你想要安装的目录。步骤2：配置环境变量1.打开系......
轻松实现Apache,Tomcat集群和负载均衡
环境说明 Apache :apache_2.0.55 1个 Tomcat: apache-tomcat-5.5.17(zip版)2个 mod_jk::mod_jk-apache-2.0.55.so 1个第一部分：负载均衡负载均衡，就是apache将客户请求均衡的分给tomcat1,tomcat2....去处理 1.安......
Apache DolphinScheduler 支持使用 OceanBase 作为元数据库啦!
DolphinScheduler是一个开源的分布式任务调度系统，拥有分布式架构、多任务类型、可视化操作、分布式调度和高可用等特性，适用于大规模分布式任务调度的场景。目前DolphinScheduler支持的元数据库有Mysql、PostgreSQL、H2，如果在业务中需要更好的性能和扩展性，可以在DolphinScheduler......
ETL之apache hop数据增量同步功能
ETL增量数据抽取CDC概念：ChangeDataCapture，变化的数据捕获，也称：【增量数据抽取】（名词解释）CDC是一种实现数据的增量抽取解决方案，是实现【ETL整体解决方案】中的一项子方案/子问题。(对CDC的定位）如何捕获变化的数据是增量抽取的关键，对捕获方法一般有2点要求：准确性：能够将业务系......
MySQL告警"[Warning] Connection attributes of length 571 were truncated"
有时候会在mysql的错误日志中看到如下报错"[Warning]Connectionattributesoflength571weretruncated"。比如：2023-08-20T13:23:15.265489Z47753433[Warning]Connectionattributesoflength571weretruncated2023-08-20T13:23:15.274938Z47425089[Warning]C......
大数据技术Spark之RDD基础编程
大数据技术Spark之RDD基础编程RDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。一、RDD的两种创建方式从集合（内存）中创建RDD从集合中创建RDD，Sp......

apache spark connect 试用

connect server 启动

python 应用

说明

参考资料

相关文章

赞助商

阅读排行