pyspark

标签：parallelize pyspark 分区 rdd 算子 sc spark

spark

用于大规模数据处理的统一(适用面广)分析引擎(数据处理)。

RDD:弹性分布式数据集。

rdd是一种分布式内存抽象，能够在大规模集群中做内存运算，并且有一定的容错方式。

spark 特点:

对任意类型的数据进行自定义计算。
spark 可以计算: 结构化，半结构化，非结构化等各种类型的数据结构，同时也支持使用python ,java scala,R以及sql语言去开发应用程序计算数据。

spark和 hadoop 区别

spark做海量数据的计算，可以进行离线批处理，以及实时流处理。

spark四个特性

1)速度快，
spark支持内存计算，并且通过DAG(有向无环图)执行引擎支持无环数据流，其在内存中的运算速度要比mapreduce快100倍，在硬盘中要快10倍。
spark 与mapreduce处理数据对比:
其一，spark处理数据时，可以将中间处理结果数据存储到内存中。
其二，spark提供了非常丰富的算子(Api),可以做到复杂任务在一个spark程序中完成。
2)易于使用
3)通用性强
spark提供了包括dpark  sql,  dpark  streaming,  mlib  以及graphx在内的多个工具库。
4)运行方式
包括hadoop和  mesos上，也支持standalone的独立运行方式，也可以运行在云kubernetes上。

spark 运行模式

1)本地模式(单机)  local
以一个独立的进程，通过其内部的多个线程来模拟整个spark的运行环境。
2)standalone模式(集群)
各个角色以独立进程的形式存在，组成spark集群环境。
3)kubernetes模式(容器集群),简称k8s集群
各个角色运行在kubernetes的容器内部，组成spark集群环境。
4)云服务模式(运行在云平台上)
后三个用在生产环境。

spark的角色

资源层面:
master角色:集群资源管理
worker角色:单机资源管理

任务运行层面:
driver:单个任务的管理
executor角色:单个任务的计算(woker  干活的)

standalone提交spark应用

命令：bin/spark-submit  --master  spark://server7077;

4040, 8080, 18080 端口分别是什么?

4040:  是单个程序运行的时候绑定的端口，可供查看本任务运行情况
8080:是standalone下，master角色的端口。
18080:默认是历史服务器的端口。

job, state, task 的关系?

一个spark程序会被分成多个子任务(job)运行，每一个job会分成多个state(阶段)来运行，每一个state内会分出来多个task(线程)来执行具体任务。

spark on yarn

是两种运行模式，一种是cluster模式，一种是client模式，两者的区别在于driver运行的位置。

两种部署模式的区别？

clustet模式: driver运行在yarn容器内部，和applicationmaster在同一个容器内。(生产环境中使用该模式)
1)driver程序在yarn集群中，和集群的通信成本低
2)driver输出结果不能再客户端显示
3)该模式下driver运行applicationmaster这个节点上，由yarn管理，如果出现问题，yarn会重启applicationmaster(driver)

client模式: driver运行在客户端进程中，比如driver运行在spark-submit程序的进程中。(学习测试时使用，生产不推荐，要用也可以，性能，稳定性略低)
1)driver运行在client端，和集群的通信成本高
2)driver输出结果能再客户端显示

为什么spark用yarn

提高资源利用率，在已有的yarn场景下，让spark收到yarn的调度可以更好的管控资源提高利用率并方便管理。

是应用程序，客户端程序，提供交互式的Python客户端用于写spark api.
pandas用于:小规模数据集的处理
spark用于:大规模数据集的处理。

spark和pyspark的区别

pyspark 用法代码

获取sparkcontext对象，作为执行环境入口

pyspark 执行原理:

driver端由python翻译成jvm,driver端的jvm和executor端的jvm互相通信，通过中转站底层由Pythonexecutor在运行。

rdd

为什么需要rdd:

在分布式框架中，需要有一个统一的数据抽象对象，来实现分布式计算所需功能。

rdd五大特性

有分区
rdd分区是rdd数据存储的最小单位, 一份rdd的数据本质上是分割成了多个分区
例子:

sc.parallelize([1,2,3,4,5,6,7,8,9],3).glom().collect()
结果是 [[1,2,3],[4,5,6],[7,8,9]]

2). rdd的方法会作用到其所有的分区上
例子

sc.parallelize([1,2,3,4,5,6,7,8,9],3).map(lambda  x: x*10).glom().collect()
结果是  [[10,20,30],[40,50,60],[70,80,90]]

3). rdd有依赖关系
4). k-v 型的rdd可以有分区器
默认的分区器:hash分区规则，可以手动设置一个分区器(rdd.partitionby的方法来设置 )。
这个特性是可能得，不是所有的rdd都是k-v型。
k-v rdd:rdd 存储的是二元元祖。
二元元祖: 只有两个元素的元祖，比如("hadoop",6)
5) rdd分区规划，尽量靠近数据所在的服务器。
因为这样可以走本地读取，避免网络读取。

wordcount结合rdd特性进行执行分析

rdd的创建

2种方式:
1.通过并行化集合创建(本地对象转分布式rdd);

使用方法:rdd=sparkcontext.parallerize(集合对象，分区数)

2.读取外部数据源(读取文件)

使用方法: sparkcontext.textfile( 文件路径，最小分区数量)

例子

from pyspark import SparkConf, SparkContext

if __name__ == '__main__:
#构建sparkcontext对象
conf = SparkConf().setAppName("test").setMaster(" ocal[*]")
sc = SparkContext(conf=conf)
#通过textFileAPI 读取数据

#读取本地文件数据
file_rdd1 = sc.textFile("../data/input/words.txt")
print("默认读取分区数:"，file_rdd1.getNumPartitions())
print("file_rdd1 内容;"，file_rdd1.collect())
#最小分区数参数的测试
file_rdd2 = sc.textFile("../data/input/words.txt", 3)
#最小分区数是参考值，spark有自己的判断，你给的太大spark不会理会
file_rdd3 = sc.textFile("../data/input/words.txt"，100)
print("file_rdd2 分区数:"，file_rdd2.getNumPartitions()
print("file_rdd3 分区数:", file_rdd3.getNumPartitions())
#读取HDFS文件数据测试
hdfs_rdd = sc.textFile("hdfs://node1:8020/input/words.txt")print("hdfs_rdd 内容:"，hdfs_rdd.collect())

wholetextfiles

读取小文件比较多时，使用wholetextfiles(文件路径，分区数 )
因为文件的数据很小分区很多，导致shuffle的机率更高，所以尽量少分区读取数据。

from pyspark import SparkConf, SparkContext

if __name__ =='__main.__':
conf = SparkConf() .setAppName("test").setMaster("local[*]")
sc = SparkContext(conf=conf)

#读取小文件文件夹
rdd= sc.wholeTextFiles("../data/input/tiny-files")
print(rdd.map(lambda x:x[1]).collect()）

rdd算子

算子:分布式集合对象上的api.
方法/函数: 本地对象的api

2). rdd的算子分类

transformation: 转换算子
定义: rdd的算子，返回值仍是一个rdd.
特性: 这类算子是lazy懒加载的，如果没有action 算子，transformation是不工作的。

action:动作(行动)算子。
定义:返回值不是rdd.

transformation算子相当于在构建执行计划，action是一个指令让这个执行计划开始工作。
如果没有transformation,action算子之间的迭代关系，就是一个没有通电的流水线，只有action到来，这个数据处理的流水线才开始工作。

常用的transformation算子

1) map算子

功能:map算子是将rdd的数据一条条处理( 处理的逻辑基于map算子中接收的处理函数 )，返回新的rdd。

语法: rdd.map( func)

例子:

2) flatmap算子

功能:对rdd执行map操作，然后进行解除嵌套操作。(就是将多维数组转为一维数组)

3) reduceBykey算子

功能:针对kv型的rdd,自动按照key分组，然后根据你提供的聚合逻辑，完成组内数据(value)的聚合操作。
语法: rdd.reduceByKey(func)
按照key分组，值累加

4) mapValues 算子

功能:针对二元元祖rdd,对其内部的二元元祖的value执行map操作。
语法:rdd.mapValues(func)
代码:

sc.parallelize([("a",1), ("a",5), ("a",8), ("b",3)] )
#rdd.map(lambda x: x[0] ,x[1] *10 ).collect()
rdd.mapValues(lambda value: value *10 ).collect()
结果是 [("a",10), ("a",50), ("a",80), ("b",30)]

5) groupBy算子

功能:将rdd的数据进行分组
语法:rdd.groupBy(func)

6)filter算子

功能: 过滤想要的数据进行保留。
返回是true的数据被保留，false将被丢弃
例子:

rdd=sc.parallelize([1,2,3,4,5,6])
result=rdd.filter(  lambda  x: x %2==1)
print(result.collect())
结果是[1,3,5]

7) distinct算子

功能:对rdd数据进行去重，返回新的rdd。
语法:rdd.distincr(参数1) #参数1，去重分区数量，一般不用传
例子:

rdd = sc.parallelize(  [1,1,1,2,3])
print(rdd.distinct().collect())
结果是  [1,2,3]

8)union算子

功能:两个rdd合并成一个rdd返回。
注:union 不会去重; rdd的类型不同也可以合并。
例子

rdd1 = sc.parallelize(  [1,1,2])
rdd2 = sc.parallelize(  ["a","b","a"])
rdd3 = rdd1.union(rdd2)
print(rdd3.collect())
结果是[1,1,2,"a","b","a"]

9) join算子

功能:对两个rdd执行join操作(可实现sql的内外连接 )
语法: rdd.join(other_rdd) #内连接
rdd.leftouterjoin(other_rdd) #左外
rdd.rightouterjoin(other_rdd) #右外

10) intersetion算子

功能:求两个rdd的交集，返回一个新的rdd。
例子

rdd1 = sc.parallelize(  [("a",1),("b",1])
rdd2=sc.parallelize( [("a",1),("c",1]  )
rdd3 = rdd1.intersetion(rdd2).collect()
结果是["a",1]

11) glom算子

功能:将rdd的数据，加上嵌套，这个嵌套按照分区进行。
方法: rdd.glom()
例子:

rdd = sc.parallelize([1,2,3,4,5], 2)
rdd.glom().collect()
结果是[[1,2,3],[4,5]]

12) groupbykey算子

功能:针对kv型rdd，自动按照key分组。
例子

rdd1 = sc.parallelize(  [("a",1),("b",1],("a",1),("b",1),  ("b",1)  )
rdd2  = rdd1.groupbykey()
print( rdd2.map( lambda x : (x[0],list(x[1]) ) ).collect()
结果:  [("a",[1,1]),("b",[1,1,1])]

13) sortBy算子

功能: 对rdd数据进行排序
语法:

rdd.sortby(func,ascending =true,numpartition=1)
ascending  true升序，false降序
numpartition   用多少分区排序

例子

rdd = sc.parallelize(  [("a",1),("b",9],("a",3),("b",2),  ("b",6)],3  )
print(rdd.sortby(lambfa x:x[1],ascending=true,numpartition=3  )))#按值排序， x[0]是按key排序
结果  [("a",1),("b",2],("a",3),("b",6),  ("b",9)]

14) sortByKey 算子

功能: 针对kv型rdd，按照key排序。
语法: sortbykey( ascending=true,numpartition=3, keyfunc=xxx)
keyfunc: 在排序前对key进行处理。
例子

rdd = sc.parallelize(  [("a",1),("f",1],("C",1),("B",1),  ("h",1)],3  )
print(rdd.sortbykey(keyfunc=lambda key:str(key).lower(),ascending=true,numpartition=1  ))).collect()
结果是[("a",1),("B",1],("C",1),("f",1),  ("h",1)]

将案例提交到yarn执行

常用的action算子, (其结果不是rdd类型了)

1) countBykey算子

功能:统计key出现的次数，(一般适用于kv型的rdd)
例子

rdd = sc.textfile( ./t.txt)
rdd1 = rdd.flatmap(lambda  x: x.split(" ")).map(lambda x :(x,1))
result = rdd1.countBykey()
print(result)
结果 ({"hello": 3, "foo" : 2})

2) collect()

功能:将rdd各个分区内的数据，统一收集到driver中，形成一个list对象。

3)reduce算子

功能: 对rdd数据集按照你传人的逻辑进行聚合。
例子

rdd = sc.parallelize([1,2,3,4])
print(rdd.reduce( lambda a,b : a+ b))
结果  10

4)fold算子

功能:和reduce一样进行聚合，聚合是带有初始值的，这个初始值聚合会作用在: 分区内聚合，分区间聚合。
比如[[1,2,3],[4,5,6],[7,8,9]]
数据分布在三个区，
分区1，123聚合时带上初始值10得到16，
分区2，456聚合时带上初始值10得到25，
分区1，789聚合时带上初始值10得到34
三个分区的结果做聚合带上初始值10，所以结果是10+16+25+34 =85。
例子

rdd = sc.parallelize([1,2,3,4,5,6,7,8,9])
print(rdd.fold(10, lambda a,b:a + b)

5) first()算子

功能:取出rdd的第一个元素。
例子

sc.parallelize([1,2,3,4,5,6,7,8,9]).first()
结果是 1

6) take算子

功能: 取rdd的前N个元素,返回列表
例子

sc.parallelize([1,2,3,4,5,6,7,8,9]).take(5)
结果是[1,2,3,4,5]

7)top算子

功能: 对rdd数据进行降序排序，取前N个。
例子

sc.parallelize([1,2,9,6,8,5]).top(3)
结果是[9,8,6]

8) count算子

功能: 计算rdd有多少条数据
例子

sc.parallelize([1,2,9,6,8,5]).count()
结果是6

9) takeSample算子

功能: 随机抽样rdd数据
用法:

takeSample( true  or  false，采样数，随机数种子  )
true  or  false: 是否允许取同一个位置的数据(不是值相同)
采样数: 抽样要几个
随机数种子:随意给一个数，如果传同一个数字，那么取出的结果是一样的，(一般不传，spark会自动给随机数种子)

例子

rdd = sc.parallelize([1,2,9,6,8,5])
print(rdd.takeSample(true,8))
结果是[1,2,5,6,8,2,6,8]  随机取出了8位数

10) takeOrdered 算子

功能:对rdd进行排序取前N个
用法:

rdd.takeOrdered(参数1，参数2)
参数1，要几个数据
参数2，对排序的数据进行更改(不会改原数据本身)

例子

rdd = sc.parallelize([1,2,9,6,8,5])
print(rdd.takeOrderd(3))  # [1,2,5]
print(rdd.takeOrderd(3,lambda x :-x))  #[9,8,6]

11) foreach 算子

功能:对rdd的每一个元素，执行你提供的逻辑操作，没有返回值(直接在executor里返回值，driver就不负责返回值了，减少driver的压力，效率可能会高一点)
用法:rdd.foreach(func)
例子:

rdd = sc.parallelize([1,2,9,6,8,5])
rdd.foreach(lambda x : print(x *10))
#可以把print写到lambda里。

12)saveAsTextFile算子

功能: 将rdd的数据写入到文本文件中，支持本地写出，HDFS等文件系统。
例子

rdd = sc.parallelize([1,2,9,6,8,5],3)
rdd.saveAsTextFile(hdfs://node1:8020/output  )

注意: foreach和saveastextfile 算子是分区(executor)直接执行的，跳过driver，由分区所在的executor直接执行; 反之，其余的action算子都会将结果发送到driver。所以这两个算子性能比较好，不会爆内存。

分区操作算子

1) mapPartitions算子

mappartition一次被传递是一整个分区的数据，作为一个迭代器(一次性list)对象传人过来。

例子

rdd = sc.parallelize([1,2,9,6,8,5],3)
def  foo(iter):
     result=list()
     for  i  in  iter:
            result.append(i  *  10)
     return   result
print(rdd.mappartitions( foo ).collect())
结果是[10,20,90,60,80,50]

2) foreachpartition算子

功能:和普通的foreach一致，一次处理的是一整个分区数据。没有返回值
例子

rdd = sc.parallelize([1,2,9,6,8,5],3)
def  foo(iter):
     result=list()
     for  i  in  iter:
            result.append(i  *  10)
     print(result)
rdd.mappartitions( foo )
#结果是
[10，20]
[90,60]
[80,50]

3) partitionBy 算子

功能: 对rdd进行自定义分区操作。
例子

rdd = sc.parallelize([ ("hadoop",1),  ("hadoop",1),   ("spark",1) , ("spark",1),  ("filnk",1) ,("hello",1) ])
#使用partitionby自定义分区
def  foo(k):
      if  "hadoop" == k  or  "hello"  ==  k:  return   0
      if  "spark" == k :  return   1
      return  2

rdd.partitionby(3,foo).glom().collect())
#结果，[[  ("hadoop",1),  ("hadoop",1),("hello",1) ],   [  ("spark",1),  ("spark"",1)],[("filnk",1) ]   ]

4) repartition算子

功能:对rdd的分区执行重新分区(仅数量)
用法: rdd.repartition(N)
传入N,决定新的分区数

注:如果改分区: 会影响并行计算(内存迭代的并行管道数量 ); 分区如果增加，极大可能导致 shuffle。

例子

rdd = sc.parallelize([1,2,9,6,8,5],3)
#repartition修改分区
print(rdd.repartition(1  ).getNumPartitions())
print(rdd.repartition(5  ).getNumPartitions())
#coalesce修改分区,  必须有shuffle=True，安全，他是安全阀，避免把5按成50，影响性能
print(rdd.coalesce(1  ).getNumPartitions())
print(rdd.coalesce(5,shuffle=True  ).getNumPartitions())
结果是  1    5    1    5

面试题: grouobykey 和 reducebykey 区别?

功能上: grouobykey 仅仅只有分组功能
reducebykey 除了有bykey的分组功能外还有reduce的聚合功能
性能上:reducebykey 的性能远大于grouobykey + 聚合逻辑的。
groupbykey 是先分组后聚合
reducebykey 是先预聚合，在分组，最后再聚和。这样的话网络io的开销是最小的。

问题2: transformation和action的区别?

转换算子的返回值100%是rdd，而action的返回值100%不是rdd，转换算子是懒加载，只有遇到action才会执行，action就是转换算子处理链条的开关。

rdd 的数据是过程过程

rdd之间进行相互迭代计算(transformation的转换，当执行开启时，新rdd生成，旧的rdd消失。
特性: 最大化的利用资源，旧的rdd没有了就从内存中清理，给后续的计算腾出空间

rdd缓存

rdd缓存:可以通过调用api,将指定的rdd数据保留在内存或是硬盘上缓存的api。
用法：

rdd不需要再走之前的链条，重新去计算了，而是直接保存在内存中，想用就去用。

缓存的目的:避免迭代的链条重新计算。
缓存是不安全的，缓存如果丢失?
就要重新计算重新缓存了，缓存必须保留被缓存rdd的前置血缘关系。
例子

rdd checkPoint

也是将rdd的数据保存起来，但是仅支持硬盘存储。并且被设计认为是安全的(缓存不会丢失)，不保留血缘关系(只能重新计算)。

checkPoint是如何保存数据的?

是被保存到hdfs上的，如图，checkpoint存储rdd数据，是集中收集各个分区数据进行存储，而缓存是分散存储。
看截图

缓存和 checkpoint 对比:

1) checkpoint不管分区数量多少，风险是一样的 ； 缓存分区越多，风险越高。
2)  checkpoint 支持写入HDFS ，缓存不行，HDFS是高可靠存储，checkpoint 被认为是安全的。
3) checkpoint 不支持内存，缓存可以，缓存如果写内存，性能比checkpoint要好一些。
4)checkpoint 被设计认为是安全的，所以不保留血缘关系，而缓存因为设计上认为不安全，所以保留。

用法：

sc.setCheckpointDir("hdfs://node1:8020/output/ckp")
#用的时候，直接调用checkpoint算子即可.
rdd.checkpoint()

例子

spark广播变量

用法：

#1.将本地list 标记成广播变量即可
broadcast = sc.broadcast(stu_info_list)
#2.使用广播变量，从broadcast对象中取出本地List对象即可
value = broadcast(value)
#也就是 先放进去broadcast内部，然后从broadcast内部在取出来用，中间传输的是broadcast这个对象了
#只要中间传输的是broadcast对象，spark就会留意，只会给每个Executor发一份了，而不是傻傻的哪个分区要都给

如果将本地list对象标记为广播变量对象，那么spark只会给每个executor来一份数据，而不是像原本数据那样，每一个分区的处理线程都来一份，节省内存。

问题1：为什么不把本地集合写成分布式rdd形式?
数据量不大的时候，使用本地集合是性能提升的一个点，避免了大量的shuffle。

本地集合对象和分布式集合对象(rdd)进行关联时，需要将本地集合对象封装成广播变量，可以节省内存:1.网络io的次数，2. executor的内存占用。
例子：

# codinq;utf8

if-_name_- ==__main_':
  conf= SparkConf().setAppName("test").setMaster("local[*]")
  sc = SparkContext(conf=conf)
  stu_info_list =[(1,'张大仙'，11),
                  (2,'王晓晓’，13),
                  (3, '张甜甜”，11)
                  (4,'王大力'，11)]
  #1.将本地Python List对象标记为广播变量
  broadcast = sc.broadcast(stu_info_list)
  score_info_rdd = sc.parallelize([
      (1,'语文',99),
      (2,'数学',99),
      (3,'英语’,99),
      (4,'编程'，99),
      (1,'语文',99),
      (2,'编程,99)
      (3,'语文'，99)
      (4,'英语'，99)04
      (1,'语文'，99)
      (3,'英语'，99)
      (2,'编程'，99)
    ])

  def map_func(data):
    id = data[0]
    name = #u
    #匹配本地List和分布式rdd中的学生ID 匹配成功后 即可获得当前学生的姓名#2.在使用到本地集会利象时方，从广播变量中取出来用即司
    for stu_info in broadcast.value:
    stu_id = stu_info[0]
    if id == stuid:
      name = stu_info[1]
    return (name，data[1]， data[2])
  print(score_info_rdd.map( func).collect())

累加器

想要对map算子计算中的数据，进行技术累加，得到全部数据计算完后的累加结果。
代码:

sc.parallelize([1,2,9,6,8,5],2)
#spark提供的累加器变量，参数是初始值
acmlt = sc.accumulater(0)
def  map_func(data  )
       global   acmlt
       acmlt += 1
       print(acmlt)     # 1  2  3  1  2  3
rdd.map(map_func).collect()
print( acmlt )   #  6

DAG

DAG: 有向无环图，有方向没有形成闭环的一个执行流程图。
2)作用:
是协助DAG调度器构建task分配用以做任务管理。

job 和 action

1个action会产生一个DAG,如果代码中有3个action，就产生3个DAG,1个action产生的一个DAG会在程序运行中产生一个job。
所以1个action = 1个job = 1个 DAG.

1个代码运行起来，在spark中称之为 application。

层级关系:
1个application中可以有多个job，每一个job内含一个DAG, 同时每一个job都是由一个action产生。

2.DAG和分区

带有分区的DAG

3.DAG的宽窄依赖和阶段划分。

窄依赖: 父rdd的一个分区，全部将数据发给子rdd的一个分区。
宽依赖: 父rdd的一个分区，将数据发给子rdd的多个分区。
宽依赖还有一个别名:shuffle。

4。阶段划分

对于spark来说，会根据DAG,按照宽依赖，划分不同的DAG阶段。
**划分依据: ** 从后向前，遇到宽依赖就划分出一个阶段，称之为stage。
在stage内部一定都是: 窄依赖。

内存迭代计算

面试题1. spark是怎么做内存计算的? DAG的作用? stage阶段划分的作用?

面试题2. spark为什么比mapreduce快

spark并行度

先有并行度，才有分区规划。
spark的并行: 在同一时间内，有多少个task在同时运行。

并行度:并行能力的设置
比如设置并行度6，其实就是要6个task并行在跑。
在有了6个task并行的前提下，rdd的分区就被规划成6个分区了。

2) 如何设置并行度

优先级从高到低:
代码中
conf = SparkConf()
conf.set( "spark.default.parallelize" ,"100"  )
客户端提交参数中
b8n/spark-submint  --conf  "spark.default.parallelize=100"
配置文件中
conf/spark-defaults.conf 中设置
spark.default.parallelize 100

默认(1，但是不会全部以1来跑，多数时候基于读取文件的分片数量  来作为默认并行度) 

全局并行度配置的参数:  spark.default.parallelize

注意:全局并行度是推荐设置，不要针对rdd该分区，可能会影响内存迭代管道的构建，或者会产生额外的shuffle。

spark任务调度

driver内的两个组件

1)DAG调度器
工作内容:将逻辑的DAG图进行处理，最终得到逻辑上的task划分。

2)task调度器
工作内容: 基于DAG scheduler 的产出，来规划这些逻辑的task，应该在哪些物理的executor上运行，以及监控管理他们的运行。

spark运行的层级关系

.sparkSQL

**分布式SQL计算引擎: ** sparksql ,hive, impala, presto。

sparksql是spark的一个模块，用于处理海量结构化数据。

sparksql支持SQL语言，性能强，可以自动优化，api简单，兼容hive等等。
sparksql处理业务数据: 离线开发，数仓搭建，科学计算，数据分析。
1)特点:

融合性:sql可以无缝集成在代码中，随时用SQL处理数据。
统一数据访问:  一套标注api可读写不同数据源。
hive兼容:  可以使用sparksql直接计算并生成hive表。
标准化链接: 支持标准化JDBC/ODBC链接，方便和各种数据库进行数据交互。

2). sparksql 和 hive的异同

3) .sparksql的数据抽象

有三种: SchemaRDD(废弃)，dataFrame(python,java,scala ,R ), DataSet(scala ,java)
dataframe 和 dataset对比，基本相同，不同的是dataset 仅支持泛型特性，可以让Java，scala语言更好的利用到。

28.sparksession对象

在rdd阶段，程序的执行入口对象是:sparkcontext,在spark2.0之后，推出了sparksession 对象作为spark编码的统一入口对象。所以后续的代码执行环境入口对象，统一变更为sparksession对象。
用法:

代码例子

datafram是按照二维表格的形式存储数据

rdd是存储对象本身(字符串，list，dict等形式).

datafram更适合SQL进行处理。

dataframe 组成结构:
structType对象描述整个dataframe 的表结构
Structfield 对象描述的是一个列的信息
row对象记录一行数据
Column 对象记录一列数据并包含列的信息

dataframe代码构建

将rdd转成dataframe
1)spark.createDataFrame( rdd,schema=["name","age"] )
代码如下：

2) 通过structype对象来定义dataframe的表结构
schema= StructType().add(列名，列类型，是否允许为空)
例子

3) 使用rdd的toDF转换rdd。
例子

4)将pandas的dataframe转换成分布式的sparksql dataframe对象
例子

通过spark SQL的统一api进行数据读取构建dataframe。

1）读取TXT文件

2)dataframe读取json数据

3)读取csv数据源

4)读取parquet数据源
parquet:是spark中常用的一种列式存储文件格式。

parquet跟普通文件对比:
parquet内置schema(列名/列类型，是否为空)；
存储是以列作为存储格式；
存储是序列化存储在文件中(有压缩属性体积小)
示例:

df = spark.read.format( "parquet" ).load("./xx.parquet")
df.printschema()
df.show()

dataframe的两种分格

DSL风格:比如，df.where().limit()

sql风格:比如，spark.sql(select * from xxx)
使用sql风格的语法，需要将dataframe注册成表。

df.createTempView("score" )#注册一个临时表
df.createOrReplaceTempView("score" )#注册一个临时表,如果存在进行替换。
df.createGlobalTempView("score" )#注册一个全局表
全局表:跨sparksessi9n对象使用，在一个程序内的多个sparksession 中均可调用，查询前带上前缀，global_temp.
临时表:只在当前sparksession中使用。

代码

DSL - printSchema
功能：打印输出df的schema信息
语法： df.printShema()

pyspark.sql.functions包

这个包里面提供了一系列的计算函数供sparksql使用。
使用:

导包  from  pyspark.sql  import  functions  as F
F.split(被切分的列，切分字符串)
F.explode(被转换的列  )
这些功能函数，返回值多数都是column对象。

sparksql 数据清洗api

去重方法 dropDuplicates
用法:

df.dropDuplicates().show()  #无参数是对数据整体去重
df.dropDuplicates(["name","age"]).show()#针对字段去重
dropna  删除空行
fillna  填充

例子

dataframe数据写出

统一api语法:

df.write.mode().format().option(k,v).save(path)
mide:append 追加，overwrite  覆盖，ignore  忽略 ，error  重复就报异常(默认的)
option:  设置属性
save  写出的路径

例子

dataframe通过JDBC读写数据库

需要安装MySQL驱动包才行
代码

sparksql定义UDF函数

UDF:一对一的关系，输入一个值输出一个值。

定义方式有2种:

sparksession.udf.register()
注册的udf可以用于DSL和sql，返回值用于DSL风格，传参内的名字可用于sql风格。
2）.pyspark.sql.functions.udf
仅用于DSL风格

标签：parallelize,pyspark,分区,rdd,算子,sc,spark
From： https://www.cnblogs.com/xm-179987734/p/17047218.html

pyspark

spark

RDD:弹性分布式数据集。

spark 特点:

spark和 hadoop 区别

spark四个特性

spark 运行模式

spark的角色

standalone提交spark应用

4040, 8080, 18080 端口分别是什么?

job, state, task 的关系?

spark on yarn

两种部署模式的区别？

为什么spark用yarn

pyspark

spark和pyspark的区别

pyspark 用法代码

pyspark 执行原理:

rdd

为什么需要rdd:

rdd五大特性

wordcount结合rdd特性进行执行分析

rdd的创建

wholetextfiles

rdd算子

2). rdd的算子分类

常用的transformation算子

1) map算子

2) flatmap算子

3) reduceBykey算子

4) mapValues 算子

5) groupBy算子

6)filter算子

7) distinct算子

8)union算子

9) join算子

10) intersetion算子

11) glom算子

12) groupbykey算子

13) sortBy算子

14) sortByKey 算子

将案例提交到yarn执行

常用的action算子, (其结果不是rdd类型了)

1) countBykey算子

2) collect()

3)reduce算子

4)fold算子

5) first()算子

6) take算子

7)top算子

8) count算子

9) takeSample算子

10) takeOrdered 算子

11) foreach 算子

12)saveAsTextFile算子

分区操作算子

1) mapPartitions算子

2) foreachpartition算子

3) partitionBy 算子

4) repartition算子

面试题: grouobykey 和 reducebykey 区别?

问题2: transformation和action的区别?

rdd 的数据是过程过程

rdd缓存

rdd checkPoint

checkPoint是如何保存数据的?

缓存 和 checkpoint 对比:

spark广播变量

累加器

DAG

job 和 action

2.DAG和 分区

3.DAG的宽窄依赖和阶段划分。

4。阶段划分

内存迭代计算

spark并行度

2) 如何设置并行度

spark任务调度

driver内的两个组件

spark运行的层级关系

缓存和 checkpoint 对比:

2.DAG和分区