1.23学习进度

时间：2024-01-23 18:13:15浏览次数：33

标签：RDD 分区 list value 学习 rdd 进度 key 1.23

1.RDD定义：弹性分布式数据集，是spark中最基本的数据抽象，代表一个不可变、可分区、里面的元素可并行计算的集合

2.RDD五大特性

    A list of partitions:RDD是有分区的
    A function for computing each split：计算方法会做用到每一个分片（分区）之上
    A list of dependencies on other RDDs：RDD之间是有相互依赖关系的
    Optionally,a pqrtitioner for key-value RDDs(e.g. to say that the RDD is hash-partitioned)：kv型RDD可以有分区器
    Optionally ,a list of preferred location to compute each split on (e.g. block location for an HDFS file ):RDD分区数据的读取会尽量靠近数据所在地

3.A list of partitions:RDD是有分区的

rdd的分区时rdd数据存储的最小单位

一份rdd数据，本质上时分隔成了多个分区

4.A function for computing each split：计算方法会做用到每一个分片（分区）之上

5.Optionally,a pqrtitioner for key-value RDDs(e.g. to say that the RDD is hash-partitioned)：kv型RDD可以有分区器

默认分区器：hash分区规则，可以手动设置一个分区器

key-value rdd：rdd中国存储的时二元元组，这就是key-value型rdd

二元元组：只有两个元素的元组

6.如何正确理解rdd

弹性分布式数据集，分布式计算的实现载体

标签：RDD,分区,list,value,学习,rdd,进度,key,1.23
From： https://www.cnblogs.com/zhangmingmkzj/p/17983061

每日学习
ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势：Spark提供了一个全面、统一的框架用于管理各种有着不同性......
LLM成功不可或缺的RLHF基于人类反馈的强化学习是如何运作的？OJAC近屿智能带你揭秘
基于人类反馈的强化学习(RLHF，ReinforcementLearningfromHumanFeedback)是人工智能(AI)领域的一个新兴研究领域，它将强化学习技术与人类反馈相结合，以训练能够学习复杂任务的个体。该方法在提高人工智能系统的性能方面显示出前景，使其在各种应用中更具有适应性和效率。强化学习......
Find min and max element in bst using iteration【1月23日学习笔记】
点击查看代码#include<iostream>usingnamespacestd;structNode{intdata;Node*left,*right;};Node*newNode(intx){Node*temp=newNode;temp->data=x;temp->left=temp->right=NULL;returntemp;}voidin......
01.23 算法补全：后缀数组
秉着技多不压身的想法，我认为在有些时候后缀数组的直接建法还是有用处的，于是决定快速地补一下这个算法。以后看看能不能每天稳定产出一篇，随便什么的文章。可能是一个trick的记录，也能是算法补全，或者是题解慢报/速报，亦或是鲜花。这些内容会同步发表于我的洛谷blog：https://www.luo......
Inplementation of Binary Search Tree using recursion-local version 3【1月23日学
点击查看代码#include<iostream>usingnamespacestd;structNode{intdata;Node*left,*right;//注意声明格式};Node*newNode(intx){Node*temp=newNode;temp->data=x;temp->left=temp->right=NULL;returntemp;}......
哈希学习笔记+杂题（基础2 字符串哈希）
哈希杂题前言：骗分神器，我之前竟然没有学。一、哈希学习笔记+杂题（基础2字符串哈希）相关题单：戳我1.哈希（hash）简介哈希算法（HashAlgorithm），又称散列算法。有两种用法，第一种就是将一字符串转化成任意进制的数，目的是方便存储。第二种就是将大范围的数映射成小范围的数，目的也是方便存......
2024.1.23-每日进度笔记
今天，我尝试在mysql插入数据后获取自增字段的值。参考：百度文心一言的回复。 publicstaticintinsertTimu(StringtimuLeixing,StringtimuWenti,StringtimuDaan,StringtimuXuanxiang)throwsException{intres=0;Connectionconnection=uti......
Pickle反序列化学习
什么是Pickle？很简单，就是一个python的序列化模块，方便对象的传输与存储。但是pickle的灵活度很高，可以通过对opcode的编写来实现代码执行的效果，由此引发一系列的安全问题Pickle使用举个简单的例子importpickleclassPerson():def__init__(self):self.age=18......
Inplementation of Binary Search Tree using iteration-local version 2【1月23日学
点击查看代码#include<iostream>usingnamespacestd;structNode{intdata;Node*left;Node*right;};Node*newNode(intx){Node*temp=newNode;temp->data=x;temp->left=temp->right=nullptr;returntemp......
李宏毅《机器学习》总结 - 类神经网络
核心问题：CriticalPoint在GradientDescent的时候，如果遇到梯度为0的情况，导致无法继续optimization，这样的点叫做CritcalPoint如果最后优化的结果不好，则出现这样的点的原因有2个：一个是到localminima了，另一个是在驻点了（也叫鞍点，SaddlePoint）。现在主要关注的是如何判......

1.23学习进度

相关文章

赞助商

阅读排行