首页 > 编程语言 >Python学习笔记--PySpark的相关基础学习（一）

Python学习笔记--PySpark的相关基础学习（一）

时间：2022-12-26 21:55:42浏览次数：46

标签：map flatMap 嵌套 Python PySpark -- 参数方法

PySpark包的下载

下载PySpark第三方包：

构建PySpark的执行环境入口对象

PySpark的编程模型

数据输入

对于SparkContext对象里面的成员方法parallelize，支持：

示例：

读取文件内容

数据计算

map方法（要求将每个元素都能够传递给map方法调用的方法里面，方法要求有参数，且有返回值）

起初会报错：

是因为缺少了这样一个import：

结果出来是这样的：

简化后的代码如下：

使用的是Lambda表达式：

要求，在*10之后，又+5：（链式调用的实现）

flatMap方法（对rdd执行map操作，并进行解除嵌套的操作）

所谓“解除嵌套”：

具体实现：

单词分离，但是在list里面嵌套有list，需要利用flatMap解除嵌套：

只需要将map修改成这种形式就可以啦：

reduceByKey方法（针对KV型RDD，自动按照key分组，然后根据提供的聚合逻辑，完成组内数据（value）的聚合操作）

要求有两个传入参数，并且传入参数的类型和返回参数类型是一样的

具体实现：

案例：打印某个文件中出现的每个单词各自的数量

标签：map,flatMap,嵌套,Python,PySpark,--,参数,方法
From： https://www.cnblogs.com/liuzijin/p/17004058.html

相关文章

day09-功能实现08
家居网购项目实现08以下皆为部分代码，详见https://github.com/liyuelian/furniture_mall.git19.功能18-添加家居到购物车19.1需求分析/图解会员登录后，可以添加家居......
代码随想录 - 背包问题
vector<int>weight={1,3,4};vector<int>value={15,20,30};intbagWeight=4;//01背包如果先遍历背包后遍历物品那就是每个包只会装一......
pip 镜像源
使用pipinstallpkgname-ihttps://mirrors.aliyun.com/pypi/simple/清华：https://pypi.tuna.tsinghua.edu.cn/simple阿里云：https://mirrors.aliyun.com/pypi/simple/......
【问题记录】【SpringBoot】启动不加载某个Starter，通过代码控制某个Starter加载
1 问题描述最近在看Sa-Token，发现当引进Sa-Token的依赖包sa-token-spring-boot-starter，SpringBoot启动会自动加载Sa-Token的东西，我想通过某个配置或者代码来控制是否......
2022年终总结
今年主要成就是：（1）身体调整到最佳状态（2）工作有些变动但最终换成了自己满意的工作（我的优先级：研究院＞券商＞web3＞传统工业＞web2）（3）入门玄学并认识了很多朋友（4）工作站各项配件的配置......
如何创建&美化博客
注：本文所有代码，均来自网络。1.创建博客1.1注册：首先要注册一个博客园的账号：博客园首页；在主页的右上角，点击注册，按照步骤填写即可。1.2申请博客：有了账号之后，将鼠标悬停......
Cookie 携带 Secure 属性导致浏览器不能在请求中携带 SessionID 的问题。
有Secure属性的Cookie意味着如果浏览器不是使用HTTPS与服务建立链接，那么这个cookie里的值不会随请求一起向服务器发送。要解决这个问题就需要在Nginx中把cookie......
在职阿里6年，一个29岁女软件测试工程师的心声
简单的先说一下，坐标杭州，14届本科毕业，算上年前在阿里巴巴的面试，一共有面试了有6家公司（因为不想请假，因此只是每个晚上去其他公司面试，所以面试的公司比较少）其中成功的有4家，......
ECharts 的 series 配置项主要有以下几种
ECharts的series配置项主要有以下几种：name：图表的名称。type：图表类型。data：数据。markPoint：标记点。markLine：标记线。markArea：标记区域。smooth：平滑曲线。itemS......
AtCoder Grand Contest 060（持续更新）
Preface那一天，闪总终于想起了被ACG支配的恐惧……只能说还好Rating不够，这场Unrated打的，写了个A然后B一直挂（一个细节没想到），C数数又数不来90min后光速跑路推Gal去了A-......

赞助商

阅读排行