1. spark初始样例

点击查看代码

import findspark
findspark.init()
from datetime import datetime, date
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
rdd = spark.sparkContext.parallelize([
    (1, 2., 'string1', date(2000, 1, 1), datetime(2000, 1, 1, 12, 0)),
    (2, 3., 'string2', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),
    (3, 4., 'string3', date(2000, 3, 1), datetime(2000, 1, 3, 12, 0))
])
df = spark.createDataFrame(rdd, schema=['a', 'b', 'c', 'd', 'e'])
df.show()

结果显示：
+---+---+-------+----------+-------------------+
| a| b| c| d| e|
+---+---+-------+----------+-------------------+
| 1|2.0|string1|2000-01-01|2000-01-01 12:00:00|
| 2|3.0|string2|2000-02-01|2000-01-02 12:00:00|
| 3|4.0|string3|2000-03-01|2000-01-03 12:00:00|
+---+---+-------+----------+-------------------+
几个关键问题：

构建rdd，rdd数据序列化，rdd本身是抽象概念，是数据的封装
将rdd转为DataFrame，关键要构建schema，也就是每条数据的列名要定义好，通过spark.createDataFrame接口直接将rdd转为DF

标签：00,01,样例,datetime,rdd,2000,12,Spark
From： https://www.cnblogs.com/bonne-chance/p/16824051.html

esProc SPL为何备受青睐，Hadoop Spark 太重？
随着大数据时代的来临，数据量不断增长，传统小机上跑数据库的模式扩容困难且成本高昂，难以支撑业务发展。很多用户开始转向分布式计算路线，用多台廉价的PC服务器组成集群来完成大......
SparkStreaming
概述SparkStreaming是用于流式数据的处理。数据输入后可以用高级抽象原语（就是SparkCore中的算子，这里只是为了区分），如map、reduce、window等进行计算。SparkStreaming......
大数据Hadoop之——Apache Hudi 数据湖实战操作（Spark，Flink与Hudi整合）
目录一、概述二、HudiCLI三、Spark与Hudi整合使用1）Spark测试2）Spark与Hudi整合使用1、启动spark-shell2、导入park及Hudi相关包3、定义变量4、模拟生成Trip乘车数......
SparkSQL
DataFrameDataFrame是一种以RDD为基础的分布式数据集，类似于二维表格。与RDD的区别在于，前者带有schema元信息，即DataFrame。DataFrame也是懒执行的，但性能上比......
Spark离线项目创建和运行步骤
一、安装maven 1.解压maven安装包，将加压后的安装包放在没有中文路径的目录下 2.创建仓库文件夹repository（理论上任何位置都是可以的，建议和maven文件夹同级别，这样......
spark springboot 实例WordCount.scala20221021
spark解析aa.txt 1、aa.txt 2、pom.xml<dependency><groupId>org.apache.spark</groupId>......
spark scala 安装 window20221021
1、spark安装http://archive.apache.org/dist/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz 环境变量：创建SPARK_HOME：D:\spark-2.2.0-bin-hadoop2.7Path......
【http代理】Python-Selenium-Chrome（白名单使用）代码样例
1.基于白名单方式使用Selenium+Chrome认证代理2.运行环境要求python2/3+selenium+Chrome+Chromedriver+Windows/Linux/macOS03.下载chromedriver（注意chromedrive......
【http代理】Python2-requests代码样例
1.基于requests的代码样例支持访问http,https网页，推荐使用2.requests不是python原生库，需要安装才能使用:pipinstallrequests#!/usr/bin/envpython#-*-coding:utf-......
【http代理】ProxyPool代码样例
1.此样例是私密代理简单IP池管理的实现2.requests不是python原生库，需要安装才能使用:pipinstallrequests3.支持Python2.7和Python3#!/usr/bin/envpython#-*-encodi......

Spark-样例

1. spark初始样例

相关文章

赞助商

阅读排行