首页 > 其他分享 >学习进度笔记2

学习进度笔记2

时间:2024-01-13 20:14:12浏览次数:26  
标签:99 parallelize rdds 笔记 学习 rdd 进度 conf sc

from pyspark import SparkConf,SparkContext
#创建sparkconf对象
conf = SparkConf().setMaster("local[*]").setAppName("test_app")
#基于sparkconf对象创建sparkContext对象
sc = SparkContext(conf=conf)
##########基本结构

#map计算
# rdd = sc.parallelize([1,2,3,4,5])
# def func(date):
# return date*10
# rdds=rdd.map(func)

#flatMap解除嵌套
# rdd = sc.parallelize(["dwad wad wdas","dwadw dfgawdfw dwad","dwadwad"])
# rdds=rdd.flatMap(lambda x : x.split(" "))

#reduceByKey分组两两计算
# rdd=sc.parallelize([('男',99),('女',99),('女',99),('男',99),('男',99),('男',99)])
# rdds = rdd.reduceByKey(lambda a, b: a+b)
# print(rdds.collect())

#filter过滤数据
rdd=sc.parallelize([1,2,3,4,5])
rdds = rdd.filter(lambda num: num % 2 == 0)
print(rdds.collect())

#distinct去重
rdd=sc.parallelize([1, 2, 3, 4, 5, 1])
rdds = rdd.distinct()
print(rdds.collect())

#停止spark
sc.stop()

标签:99,parallelize,rdds,笔记,学习,rdd,进度,conf,sc
From: https://www.cnblogs.com/jm56/p/17962848

相关文章

  • kepware关于U-CON的使用笔记 (串口_非主动问答式)
            8,新建两个变量t1,t2 (均为6字节的字符串)用来存储接收到的关键数据;   9,内容接收及解析逻辑     11 测试成功图片展示   ......
  • Anaconda使用笔记
    一、常用命令1.1查看当前conda所有环境condainfo--envs1.2创建新环境condacreate-n环境名python=x.x1.3进入你的环境Condaactivate环境名Sourceactivate环境名activate+环境名1.4查看当前环境中的包Condalistpiplist1.5在你的环境中安装包Co......
  • 深入学习数据库事务
    什么是数据库事务事务(Transaction):一般是指要做的或所做的事情。在计算机术语中是指访问并可能更新数据库中各种数据项的一个程序执行单元(unit)。在计算机术语中,事务通常就是指数据库事务,是逻辑上的一组数据库操作,要么都执行,要么都不执行。例子:假如A要给B转账500元,这个转账会涉及......
  • 《Java编程思想第四版》学习笔记54--关于UncaughtExceptionHandler
    Java中在处理异常的时候,通常的做法是使用try-catch-finally来包含代码块,但是Java自身还有一种方式可以处理——使用UncaughtExceptionHandler。它能检测出某个线程由于未捕获的异常而终结的情况。当一个线程由于未捕获异常而退出时,JVM会把这个事件报告给应用程序提供的UncaughtExce......
  • openGauss学习笔记-196 openGauss 数据库运维-常见故障定位案例-强制结束指定的问题会
    openGauss学习笔记-196openGauss数据库运维-常见故障定位案例-强制结束指定的问题会话196.1强制结束指定的问题会话196.1.1问题现象有些情况下,为了使系统继续提供服务,管理员需要强制结束有问题的会话。196.1.2处理办法以操作系统用户omm登录主机。使用如下命令连接......
  • MST(最小生成树)学习感悟
    MST(最小生成树)学习感悟MST,最小生成树,一个有n个结点的连通图的生成树是原图的极小连通子图,且包含原图中的所有n个结点,并且有保持图连通的最少的边。——百度百科对于最小生成树,有几个比较常见的性质:对于任意最小生成树,它包含所有的n个节点以及n-1条边。若边权都不相......
  • 算法学习Day26组合总和、分割回文串
    Day26组合总和、分割回文串ByHQWQF2024/01/13笔记39.组合总和给定一个无重复元素的数组candidates和一个目标数target,找出candidates中所有可以使数字和为target的组合。candidates中的数字可以无限制重复被选取。说明:所有数字(包括target)都是正整数。解集......
  • 【做题笔记】数论做题笔记
    前言题目来源初等数论学习IEuclidProblem:板题,用\(exgcd\)求出的两个解就是\(|x|+|y|\)最小的整数解【模板】二元一次不定方程(exgcd):板题GiftDilemma:将方程变为\(ax+by\equivp-cz\),枚举\(c\)前的系数,若\(n=\frac{p}{c}\),那么时间复杂度为\(O(Tn\logn)\)[POI20......
  • SHARPNESS-AWARE MINIMIZATION FOR EFFICIENTLY IMPROVING GENERALIZATION论文阅读笔
    Intro在训练集上最小化损失很可能导致泛化性低,因为当今模型的过参数化会导致trainingloss的landscape异常复杂且非凸,包含很多local/globalminima,因此优化器的选择至关重要。losslandscape的几何性质(特别是minima的flatness)与泛化性有着紧密的联系,为此作者提出了SAM(Sharpness-A......
  • (坚持每天写算法)基础算法复习与学习part1基础算法1-7——高精度减法(处理t=1和t>1代码的
    题目:思路:这一道题其实和高精度加法的思路是差不多的,都是使用算式进行模拟。重点:关于代码怎么写,在高精度加法那里还看不太出来(我也没有写),但是在高精度减法这里就完全可以看出来了。我们在加法算式里面,一般是A[i]+B[i]+t,但是也可以这么写:t+A[i]+B[i],我们可以先写进位......