1 开始pyspark
1 查看版本信息¶
In [1]:import sys print(sys.version_info)
sys.version_info(major=3, minor=11, micro=5, releaselevel='final', serial=0)In [2]:
import os print("The value of SPARK_HOME is:", os.environ.get("SPARK_HOME"))
The value of SPARK_HOME is: F:\anaconda\Lib\site-packages\pyspark
2 安装pyspark¶
!pip install pyspark 且必须pyspark运行需要JDK,在conda命令里执行conda install openjdk。
这个是图方便的简便安装方法,如果是第二次安装可能会报错。¶
3 练习sparksql¶
3.1 加载模块¶
In [3]:#导入pyspark模块 import pysparkIn [4]:
#从pyspark.sql模块中导入SparkSeesion from pyspark.sql import SparkSessionIn [5]:
spark=SparkSession.builder.appName('practise').getOrCreate()In [6]:
sparkOut[6]:
SparkSession - in-memory
SparkContext
- Version
v3.4.1
- Master
local[*]
- AppName
practise
忽略¶
import pandas as pd pd.read_csv('test1.csv')
忽略¶
pdf=pd.read_csv('test1.csv')
3.2 用SparkSession读取数据¶
In [7]:#读取csv文件(带表头)并赋值给变量sdf(此时类似于1个数据集或者是数据库里的表,实际并未加载数据到内存,只是一个DAG的某个stop) sdf=spark.read.options(header='True').csv('test1.csv')In [8]:
#展示csv文件到stdout sdf.show()
+--------+---+ | name|age| +--------+---+ |zhangsan| 18| | fasad| 19| | dsa| 20| | fss| 21| | fsa| 22| | 李四| 21| | 王五| 22| +--------+---+In [9]:
#选择csv文件中姓名并展示到stdout.(类似于sql的中选择sdf表的name列) sdf.select("name").show()
+--------+ | name| +--------+ |zhangsan| | fasad| | dsa| | fss| | fsa| | 李四| | 王五| +--------+In [11]:
#pandas的命令没有sparksql那么好理解。(学了sql基础的人觉得难理解) #pdf[["name"]].head(10)
3.3 查看类型:SparkSession里的数据默认为dataframe,不是RDD¶
In [12]:type(sdf)Out[12]:
pyspark.sql.dataframe.DataFrame标签:jupyter,name,pyspark,SparkSession,------------,sdf,import,csv From: https://www.cnblogs.com/zhangmin1987/p/17825487.html