pyspark 结构化数据开发实例

时间：2023-02-27 18:45:49浏览次数：45

标签：结构化 pyspark df get cityCode rdd 实例 print lambda

本文是一个基于pyspark 的进行海量数据ETL 和统计分析的代码示例，仅供参考

要点：

1，使用pyspark 读取 mysql 表数据。

2，使用rdd api 对结构化数据做简单ETL，设置了简单的清洗规则。

　　1，cityCode 字段非空，全部为数字，位数为9位, 前3位必须为”001“ 。

3，使用3种抽象层级的API （RDD API , Dataframe api, SQL api ）对数据进行分析计算 ,比较3种API的使用区别

4，包括了一些 rdd, Datafram 相互转换， ROW类型的使用

# Imports
from pyspark.sql import SparkSession

# Create SparkSession
spark = SparkSession.builder \
    .appName('SparkByExamples.com') \
    .config("spark.jars", "mysql-connector-java-5.1.28.jar") \
    .getOrCreate()

# Read from MySQL Table
table_df = spark.read \
    .format("jdbc") \
    .option("driver", "com.mysql.jdbc.Driver") \
    .option("url", "jdbc:mysql://134.**.**.**:9200/hesc_stm_xhm") \
    .option("dbtable", "temp_user_grid") \
    .option("user", "root") \
    .option("password", "****") \
    .load()

# check  read accessable
# print( table_df.count())  # 总行数

# etl 使用rdd 算子
rdd = table_df.rdd
# print(rdd.first())

#  cityCode
# print(rdd.filter(lambda r: r(5) == None).count())  # gridCode为空的行数

rdd1 = rdd.filter(lambda r: Row.asDict(r).get("cityCode") != None).filter(
    lambda r: len(Row.asDict(r).get("cityCode")) == 9)


# print(rdd.map(lambda r: Row.asDict(r).get("cityCode")).take(5))   # ROW类型的元素读取 使用 r(19)读取列有问题

def checkCityCode(str):
    # 判断字符串的格式，前3位为001，而且全为数字
    if (str[:3] == '001') and str.isnumeric():
        return True
    else:
        return False


rdd2 = rdd1.filter(lambda r: checkCityCode(Row.asDict(r).get("cityCode")))  
print(rdd2.first())


#  数据分析 使用 rdd  df算子 sql 三种算子 ; 统计不同网格的人员数量。
# rdd operator

map = rdd2.map(lambda r: (Row.asDict(r).get("gridCode"), Row.asDict(r).get("id"))).countByKey()
print(map)   #  查询python  rdd api


# df/ds operator   dataset 1.6之后加入， 整合了RDD 的强类型便于使用lambda函数以及 sqpark sql 优化引擎
# python 没有dataset 类型。java scala 可以。 dataframe是 dataset 的 一种。 dataframe 适用python .

df = rdd2.toDF()
df1 = df.groupBy('gridCode').count()  # dataframe  特定编程语言 对结构化数据操作， 也称 无类型dataset算子
df1.show(4)

# sql  operator
df.createOrReplaceTempView('temp_user_grip')
df2 = spark.sql("select gridCode, count(id)  from temp_user_grip group by gridCode")
df2.show(2)

spark.stop()

运行输出：

标签：结构化,pyspark,df,get,cityCode,rdd,实例,print,lambda
From： https://www.cnblogs.com/gao1261828/p/17152582.html

java netty socket实例：报文长度+报文内容，springboot
前言说实话，javanetty方面的资料不算多，尤其是自定义报文格式的，少之又少自己写了个简单的收发：报文长度+报文内容发送的话，没有写自动组装格式，自己看需求吧，需要的话，自己完......
K8S集群+负载均衡层+防火墙实例
实验拓扑图：实验要求：（1）Kubernetes区域可采用Kubeadm方式进行安装。（2）要求在Kubernetes环境中，通过yaml文件的方式，创建2个NginxPod分别放置在两个不同的节点上，Pod使用......
实现百度下拉菜单实例（利用jsonp跨域请求百度数据接口）
JSONP：是JSON withpadding（填充式JSON或参数式JSON）的简写，它由两部分组成：回调函数和数据。回调函数是当响应到来时应该在页面中调用的函数，回调函数的名字一般是在请求中指定......
ArrayList 对象排序实例
1.importjava.util.ArrayList;2.importjava.util.Collection;3.importjava.util.Collections;4.importjava.util.Comparator;5.6.7.publicclas......
Idea 2022 允许一套代码运行多个实例
在IDEA右上角打开编辑配置屏幕右侧增加配置选项运行多个实例时（比如端口不同），可以通过yml配置文件修改 sever.port=8080 也可以......
maven工程servlet实例之导入项目依赖的jar包与maven工程servlet实例之jar包冲突解决
maven工程servlet实例之导入项目依赖的jar包添加jar包的坐标时，还可以指定这个jar包将来的作用范围。每个maven工程都需要定义本工程的坐标，坐标是m......
使用骨架创建maven的web工程与maven工程servlet实例之指定web资源包
使用骨架创建maven的web工程Web： Maven的web工程： maven工程servlet实例之指定web资源包 ......
6.4-数据通路实例，解释数据通路与CPU实例的关系
单总线结构的CPU所有的功能部件都链接在总线上，并且通过总线进行数据交互各部件间通过总线进行传输设计简单，必须经过分时操作读写过程PC程序寄存器，通过AR使用地址......
maven工程servlet实例之导入依赖的jar包解决jar包冲突
jar包官网:http://mvnrepository.com 解决jar包冲突<scope>范围标签 compile 编写test 测试provided 假如......
使用骨架创建maven的web工程 maven工程servlet实例之指定web资源包
新建项目开启骨架选择骨架 maven工程servlet实例之指定web资源包 ......

pyspark 结构化数据开发实例

相关文章

赞助商

阅读排行