首页 > 其他分享 >1.23学习进度

1.23学习进度

时间:2024-01-23 18:13:15浏览次数:28  
标签:RDD 分区 list value 学习 rdd 进度 key 1.23

1.RDD定义:弹性分布式数据集,是spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合

2.RDD五大特性

    A list of partitions:RDD是有分区的
    A function for computing each split:计算方法会做用到每一个分片(分区)之上
    A list of dependencies on other RDDs:RDD之间是有相互依赖关系的
    Optionally,a pqrtitioner for key-value RDDs(e.g. to say that the RDD is hash-partitioned):kv型RDD可以有分区器
    Optionally ,a list of preferred location to compute each split on (e.g. block location for an HDFS file ):RDD分区数据的读取会尽量靠近数据所在地

3.A list of partitions:RDD是有分区的

rdd的分区时rdd数据存储的最小单位

一份rdd数据,本质上时分隔成了多个分区

4.A function for computing each split:计算方法会做用到每一个分片(分区)之上

5.Optionally,a pqrtitioner for key-value RDDs(e.g. to say that the RDD is hash-partitioned):kv型RDD可以有分区器

默认分区器:hash分区规则,可以手动设置一个分区器

key-value rdd:rdd中国存储的时二元元组,这就是key-value型rdd

二元元组:只有两个元素的元组

6.如何正确理解rdd

弹性分布式数据集,分布式计算的实现载体

标签:RDD,分区,list,value,学习,rdd,进度,key,1.23
From: https://www.cnblogs.com/zhangmingmkzj/p/17983061

相关文章

  • 每日学习
    ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性......
  • LLM成功不可或缺的RLHF基于人类反馈的强化学习是如何运作的?OJAC近屿智能带你揭秘
    基于人类反馈的强化学习(RLHF,ReinforcementLearningfromHumanFeedback)是人工智能(AI)领域的一个新兴研究领域,它将强化学习技术与人类反馈相结合,以训练能够学习复杂任务的个体。该方法在提高人工智能系统的性能方面显示出前景,使其在各种应用中更具有适应性和效率。 强化学习......
  • Find min and max element in bst using iteration【1月23日学习笔记】
    点击查看代码#include<iostream>usingnamespacestd;structNode{intdata;Node*left,*right;};Node*newNode(intx){Node*temp=newNode;temp->data=x;temp->left=temp->right=NULL;returntemp;}voidin......
  • 01.23 算法补全:后缀数组
    秉着技多不压身的想法,我认为在有些时候后缀数组的直接建法还是有用处的,于是决定快速地补一下这个算法。以后看看能不能每天稳定产出一篇,随便什么的文章。可能是一个trick的记录,也能是算法补全,或者是题解慢报/速报,亦或是鲜花。这些内容会同步发表于我的洛谷blog:https://www.luo......
  • Inplementation of Binary Search Tree using recursion-local version 3【1月23日学
    点击查看代码#include<iostream>usingnamespacestd;structNode{intdata;Node*left,*right;//注意声明格式};Node*newNode(intx){Node*temp=newNode;temp->data=x;temp->left=temp->right=NULL;returntemp;}......
  • 哈希学习笔记+杂题(基础2 字符串哈希)
    哈希杂题前言:骗分神器,我之前竟然没有学。一、哈希学习笔记+杂题(基础2字符串哈希)相关题单:戳我1.哈希(hash)简介哈希算法(HashAlgorithm),又称散列算法。有两种用法,第一种就是将一字符串转化成任意进制的数,目的是方便存储。第二种就是将大范围的数映射成小范围的数,目的也是方便存......
  • 2024.1.23-每日进度笔记
    今天,我尝试在mysql插入数据后获取自增字段的值。 参考:百度文心一言的回复。 publicstaticintinsertTimu(StringtimuLeixing,StringtimuWenti,StringtimuDaan,StringtimuXuanxiang)throwsException{intres=0;Connectionconnection=uti......
  • Pickle反序列化学习
    什么是Pickle?很简单,就是一个python的序列化模块,方便对象的传输与存储。但是pickle的灵活度很高,可以通过对opcode的编写来实现代码执行的效果,由此引发一系列的安全问题Pickle使用举个简单的例子importpickleclassPerson():def__init__(self):self.age=18......
  • Inplementation of Binary Search Tree using iteration-local version 2【1月23日学
    点击查看代码#include<iostream>usingnamespacestd;structNode{intdata;Node*left;Node*right;};Node*newNode(intx){Node*temp=newNode;temp->data=x;temp->left=temp->right=nullptr;returntemp......
  • 李宏毅《机器学习》总结 - 类神经网络
    核心问题:CriticalPoint在GradientDescent的时候,如果遇到梯度为0的情况,导致无法继续optimization,这样的点叫做CritcalPoint如果最后优化的结果不好,则出现这样的点的原因有2个:一个是到localminima了,另一个是在驻点了(也叫鞍点,SaddlePoint)。现在主要关注的是如何判......