首页 > 其他分享 >1.24学习进度

1.24学习进度

时间:2024-01-24 18:00:31浏览次数:26  
标签:map 元组 学习 rdd 分组 进度 算子 数据 1.24

1.RDD的创建

通过并行化集合创建(本地对象 转 分布式RDD)

读取外部数据源(读取文件): textfile api(可以读取本地数据)

2.算子是什么

算子:分布式集合对象上的api

方法/函数:本地对象的api

3.算子的分类

    Transformation:转换算子(返回值是rdd)

特性:这类算子时lazy、懒加载的,如果没有action算子,他是不工作的

Action:动作(行动)算子(返回值不是rdd的算子)

4.常用的transformation算子

    map算子:将rdd的数据一条条处理(处理的逻辑 基于map算子中接受的处理函数),返回新的rdd
    flatmap算子:对rdd限制性map操作,然后进行解除嵌套操作
    reducebykey算子:针对kv型rdd,自动按照可以分组,然后根据提供的聚合逻辑,完成组内数据的聚合操作
    mapvalues算子:针对二元元组rdd,对其内部的二元元组的value执行map操作
    group by算子:将rdd的数据进行分组(hash分组)
    filter算子:过滤想要的数据进行保留
    distinct算子:对rdd数据进行去重,返回新rdd
    union算子:2个rdd合并成一个rdd;不会去重;类型不同也是可以合并的
    join算子:对两个rdd执行join操作(可实现sql的内、外连接);按照二元元组的key来进行关联
    intersection算子:求2个rdd的交集,返回一个新rdd
    glom算子:将rdd的数据,加上嵌套,这个嵌套按照分区来进行
    groupbykey算子:针对kv型rdd,自动按照key分组
    sortby算子:对rdd数据进行排序,基于自定义的排序依据
    sortbykey算子:针对kv型rdd,按照key进行排序

标签:map,元组,学习,rdd,分组,进度,算子,数据,1.24
From: https://www.cnblogs.com/zhangmingmkzj/p/17985428

相关文章

  • What is FFT? FFT学习笔记
    在时间序列、数字信号的数据处理中经常会看到使用FFT作为一段数据中提取频率的手段,但是往往文中没有花大笔墨去解释,仿佛所有人都了解这个概念。FFT(FastFourierTransform)为快速傅里叶变换,是一种高效计算DFT(DiscreteFourierTransform),离散傅里叶变换的方法。在了解FFT之前......
  • Python学习笔记
    一、第一个Python程序1.1软件安装Anaconda:管理不同开发环境(如python3解释器),及它们的各种库(如numpy库)PyCharm:集成开发环境(IDE)1.2HelloWorld打开PyCharm→新建项目→选择项目保存位置、先前配置的环境(方法见Anaconda使用笔记)......
  • 数据库学习笔记(五)—— MySQL 之 瓶颈及优化篇
    MySQL之瓶颈及优化篇数据库瓶颈阶段一:企业刚发展的阶段,最简单,一个应用服务器配一个关系型数据库,每次读写数据库。阶段二:无论是使用MySQL还是Oracle还是别的关系型数据库,数据库通常不会先成为性能瓶颈,通常随着企业规模的扩大,一台应用服务器扛不住上游过来的流量且一台......
  • WinDbg学习二(符号)
    在开始使用WinDbg之前,我们需要设置一下符号。简介符号文件包含大量的数据,比如全局变量,局部变量,源行号,这些数据在运行二进制文件时实际上并不需要,但在调试过程中很有用,比如我们写.net程序时生成的PDB文件。符号可以包括名称、类型(如果适用)、存储地址或寄存器以及任何父符号或子......
  • Kubernetes 学习整理(三)
    k8skubelet(Kubernetesnodeagent):是运行在每个节点上的代理,负责管理该节点上的容器,它从KubernetesMaster接收Pod的描述,并确保节点上运行的容器与描述一致。不能跨节点。kubelet的主要作用是保证节点上的容器按照期望的状态运行。它监控容器的健康状态,执行生命周期......
  • Spring学习
    简单Spring代码1、BeanFactory和FactoryBean和BeanDefinitionBeanDefinition是Bean的定义。BeanFactory是Bean容器顶层接口。FactoryBean是用来创建Bean的,实现此接口的getBean方法可以通过此FactoryBean的名字获得Bean,如果想获得他本身则要转移&。2、容器 简单容器接......
  • kafka 学习贴
    为什么要使用Kafka消息队列?解耦、削峰:传统的方式上游发送数据下游需要实时接收,如果上游在某些业务场景:例如上午十点会流量激增至顶峰,那么下游资源可能会扛不住压力。但如果使用消息队列,就可以将消息暂存在消息管道中,下游可以按照自己的速度逐步处理;可扩展:通过横向扩展生产者......
  • SpringCloudAliBaBa Seata学习
    SpringCloudAliBaBa学习服务的注册与发现分布式事务使用场景同一个事务对两个数据库操作,事务肯定是会失效的因为一个事务就是一个数据库连接,不同的连接就是不同的事务Seata是什么?Seata是一款分布式事务解决方案,用AT模式是阿里推荐的事务模式:TCC、SAGA、XA常见分布式事......
  • 寒假怎么制定学习计划高效?可以给自己制定学习计划的软件
    随着寒冬的降临,寒假也随之而至。对于中小学生和大学生们来说,这是一个放松身心、挖掘兴趣、提升学业的黄金时期。然而,众多学子纷纷表示,寒假在家中往往面临太多诱惑,难以按时完成每天的学习目标。那么如何应对这个问题呢?一款智能的学习计划制定软件或许可以成为解决之道。对于那些......
  • scikit-learn.datasets 机器学习库
    scikit-learn是一个用于Python的机器学习库,提供了大量用于数据挖掘和数据分析的工具。以下是对这些函数和方法的简要描述:clear_data_home:清除数据集目录的内容。dump_svmlight_file:将数据集保存为SVMLight格式的文件。fetch_20newsgroups:下载20个新闻组的文本数据集。f......