首页 > 编程语言 >Python学习笔记--PySpark的相关基础学习(一)

Python学习笔记--PySpark的相关基础学习(一)

时间:2022-12-26 21:55:42浏览次数:44  
标签:map flatMap 嵌套 Python PySpark -- 参数 方法

PySpark包的下载

下载PySpark第三方包:

构建PySpark的执行环境入口对象

PySpark的编程模型

数据输入

对于SparkContext对象里面的成员方法parallelize,支持:

示例:

读取文件内容

数据计算

map方法(要求将每个元素都能够传递给map方法调用的方法里面,方法要求有参数,且有返回值)

起初会报错:

是因为缺少了这样一个import:

结果出来是这样的:

简化后的代码如下:

使用的是Lambda表达式:

要求,在*10之后,又+5:(链式调用的实现)

flatMap方法(对rdd执行map操作,并进行解除嵌套的操作)

所谓“解除嵌套”:

具体实现:

单词分离,但是在list里面嵌套有list,需要利用flatMap解除嵌套:

只需要将map修改成这种形式就可以啦:

reduceByKey方法(针对KV型RDD,自动按照key分组,然后根据提供的聚合逻辑,完成组内数据(value)的聚合操作)

要求有两个传入参数,并且传入参数的类型和返回参数类型是一样的

具体实现:

案例:打印某个文件中出现的每个单词各自的数量

标签:map,flatMap,嵌套,Python,PySpark,--,参数,方法
From: https://www.cnblogs.com/liuzijin/p/17004058.html

相关文章

  • day09-功能实现08
    家居网购项目实现08以下皆为部分代码,详见https://github.com/liyuelian/furniture_mall.git19.功能18-添加家居到购物车19.1需求分析/图解会员登录后,可以添加家居......
  • 代码随想录 - 背包问题
    vector<int>weight={1,3,4};vector<int>value={15,20,30};intbagWeight=4;//01背包如果先遍历背包后遍历物品那就是每个包只会装一......
  • pip 镜像源
    使用pipinstallpkgname-ihttps://mirrors.aliyun.com/pypi/simple/清华:https://pypi.tuna.tsinghua.edu.cn/simple阿里云:https://mirrors.aliyun.com/pypi/simple/......
  • 【问题记录】【SpringBoot】启动不加载某个Starter,通过代码控制某个Starter加载
    1 问题描述最近在看Sa-Token,发现当引进Sa-Token的依赖包sa-token-spring-boot-starter,SpringBoot启动会自动加载Sa-Token的东西,我想通过某个配置或者代码来控制是否......
  • 2022年终总结
    今年主要成就是:(1)身体调整到最佳状态(2)工作有些变动但最终换成了自己满意的工作(我的优先级:研究院>券商>web3>传统工业>web2)(3)入门玄学并认识了很多朋友(4)工作站各项配件的配置......
  • 如何创建&美化博客
    注:本文所有代码,均来自网络。1.创建博客1.1注册:首先要注册一个博客园的账号:博客园首页;在主页的右上角,点击注册,按照步骤填写即可。1.2申请博客:有了账号之后,将鼠标悬停......
  • Cookie 携带 Secure 属性导致浏览器不能在请求中携带 SessionID 的问题。
    有Secure属性的Cookie意味着如果浏览器不是使用HTTPS与服务建立链接,那么这个cookie里的值不会随请求一起向服务器发送。要解决这个问题就需要在Nginx中把cookie......
  • 在职阿里6年,一个29岁女软件测试工程师的心声
    简单的先说一下,坐标杭州,14届本科毕业,算上年前在阿里巴巴的面试,一共有面试了有6家公司(因为不想请假,因此只是每个晚上去其他公司面试,所以面试的公司比较少)其中成功的有4家,......
  • ECharts 的 series 配置项主要有以下几种
    ECharts的series配置项主要有以下几种:name:图表的名称。type:图表类型。data:数据。markPoint:标记点。markLine:标记线。markArea:标记区域。smooth:平滑曲线。itemS......
  • AtCoder Grand Contest 060(持续更新)
    Preface那一天,闪总终于想起了被ACG支配的恐惧……只能说还好Rating不够,这场Unrated打的,写了个A然后B一直挂(一个细节没想到),C数数又数不来90min后光速跑路推Gal去了A-......