首页 > 其他分享 >Spark-样例

Spark-样例

时间:2022-10-25 10:48:03浏览次数:36  
标签:00 01 样例 datetime rdd 2000 12 Spark

1. spark初始样例

点击查看代码
import findspark
findspark.init()
from datetime import datetime, date
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
rdd = spark.sparkContext.parallelize([
    (1, 2., 'string1', date(2000, 1, 1), datetime(2000, 1, 1, 12, 0)),
    (2, 3., 'string2', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),
    (3, 4., 'string3', date(2000, 3, 1), datetime(2000, 1, 3, 12, 0))
])
df = spark.createDataFrame(rdd, schema=['a', 'b', 'c', 'd', 'e'])
df.show()

结果显示:
+---+---+-------+----------+-------------------+
| a| b| c| d| e|
+---+---+-------+----------+-------------------+
| 1|2.0|string1|2000-01-01|2000-01-01 12:00:00|
| 2|3.0|string2|2000-02-01|2000-01-02 12:00:00|
| 3|4.0|string3|2000-03-01|2000-01-03 12:00:00|
+---+---+-------+----------+-------------------+
几个关键问题:

  • 构建rdd,rdd数据序列化,rdd本身是抽象概念,是数据的封装
  • 将rdd转为DataFrame,关键要构建schema,也就是每条数据的列名要定义好,通过spark.createDataFrame接口直接将rdd转为DF

标签:00,01,样例,datetime,rdd,2000,12,Spark
From: https://www.cnblogs.com/bonne-chance/p/16824051.html

相关文章

  • esProc SPL为何备受青睐,Hadoop Spark 太重?
    随着大数据时代的来临,数据量不断增长,传统小机上跑数据库的模式扩容困难且成本高昂,难以支撑业务发展。很多用户开始转向分布式计算路线,用多台廉价的PC服务器组成集群来完成大......
  • SparkStreaming
    概述SparkStreaming是用于流式数据的处理。数据输入后可以用高级抽象原语(就是SparkCore中的算子,这里只是为了区分),如map、reduce、window等进行计算。SparkStreaming......
  • 大数据Hadoop之——Apache Hudi 数据湖实战操作(Spark,Flink与Hudi整合)
    目录一、概述二、HudiCLI三、Spark与Hudi整合使用1)Spark测试2)Spark与Hudi整合使用1、启动spark-shell2、导入park及Hudi相关包3、定义变量4、模拟生成Trip乘车数......
  • SparkSQL
    DataFrameDataFrame是一种以RDD为基础的分布式数据集,类似于二维表格。与RDD的区别在于,前者带有schema元信息,即DataFrame。DataFrame也是懒执行的,但性能上比......
  • Spark离线项目创建和运行步骤
    一、安装maven  1.解压maven安装包,将加压后的安装包放在没有中文路径的目录下  2.创建仓库文件夹repository(理论上任何位置都是可以的,建议和maven文件夹同级别,这样......
  • spark springboot 实例WordCount.scala20221021
    spark解析aa.txt   1、aa.txt           2、pom.xml<dependency><groupId>org.apache.spark</groupId>......
  • spark scala 安装 window20221021
    1、spark安装http://archive.apache.org/dist/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz 环境变量:  创建SPARK_HOME:D:\spark-2.2.0-bin-hadoop2.7Path......
  • 【http代理】Python-Selenium-Chrome(白名单使用)代码样例
    1.基于白名单方式使用Selenium+Chrome认证代理2.运行环境要求python2/3+selenium+Chrome+Chromedriver+Windows/Linux/macOS03.下载chromedriver(注意chromedrive......
  • 【http代理】Python2-requests代码样例
    1.基于requests的代码样例支持访问http,https网页,推荐使用2.requests不是python原生库,需要安装才能使用:pipinstallrequests#!/usr/bin/envpython#-*-coding:utf-......
  • 【http代理】ProxyPool代码样例
    1.此样例是私密代理简单IP池管理的实现2.requests不是python原生库,需要安装才能使用:pipinstallrequests3.支持Python2.7和Python3#!/usr/bin/envpython#-*-encodi......