首页 > 其他分享 >寒假生活指导02

寒假生活指导02

时间:2024-01-10 11:44:07浏览次数:26  
标签:02 rdds parallelize 指导 99 rdd 寒假 conf sc

今天学习了rdd的过滤和去重:

from pyspark import SparkConf,SparkContext
#创建sparkconf对象
conf = SparkConf().setMaster("local[*]").setAppName("test_app")
#基于sparkconf对象创建sparkContext对象
sc = SparkContext(conf=conf)
##########基本结构

#map计算
# rdd = sc.parallelize([1,2,3,4,5])
# def func(date):
#     return date*10
# rdds=rdd.map(func)

#flatMap解除嵌套
# rdd = sc.parallelize(["dwad wad wdas","dwadw dfgawdfw dwad","dwadwad"])
# rdds=rdd.flatMap(lambda x : x.split(" "))

#reduceByKey分组两两计算
# rdd=sc.parallelize([('男',99),('女',99),('女',99),('男',99),('男',99),('男',99)])
# rdds = rdd.reduceByKey(lambda a, b: a+b)
# print(rdds.collect())

#filter过滤数据
rdd=sc.parallelize([1,2,3,4,5])
rdds = rdd.filter(lambda num: num % 2 == 0)
print(rdds.collect())

#distinct去重
rdd=sc.parallelize([1, 2, 3, 4, 5, 1])
rdds = rdd.distinct()
print(rdds.collect())

#停止spark
sc.stop()

 

 

标签:02,rdds,parallelize,指导,99,rdd,寒假,conf,sc
From: https://www.cnblogs.com/syhxx/p/17956165

相关文章

  • 2024年1月软考高级信息系统项目管理师多数人都到这报名
    信息系统项目管理师是全国计算机技术与软件专业技术资格(水平)考试(简称软考)项目之一,是由国家人力资源和社会保障部、工业和信息化部共同组织的国家级考试,既属于国家职业资格考试,又是职称资格考试。信息系统项目管理师,属于软考三个级别中的“高级”。 【报考要求】 不设学历与资历条......
  • 2024年1月深圳CPDA数据分析师认证大家都来这报名
    CPDA数据分析师认证是大数据方面的认证,助力数据分析人员打下扎实的数据分析基础知识功底,为入门数据分析保驾护航。帮助数据分析人员掌握系统化的数据分析思维和方法论,提升工作效率和决策能力,遇到问题能够举一反三,为大部分决策难题提供解决方案。帮助数据分析人员掌握几种通用的数据......
  • 2024年1月DAMA-CDGP数据治理专家认证可以先报名及备考
    DAMA认证为数据管理专业人士提供职业目标晋升规划,彰显了职业发展里程碑及发展阶梯定义,帮助数据管理从业人士获得企业数字化转型战略下的必备职业能力,促进开展工作实践应用及实际问题解决,形成企业所需的新数字经济下的核心职业竞争能力。DAMA是数据管理方面的认证,帮助数据从业者提升......
  • 2024年1月DAMA-CDGA/CDGP数据治理认证报名流程及备考
    DAMA认证为数据管理专业人士提供职业目标晋升规划,彰显了职业发展里程碑及发展阶梯定义,帮助数据管理从业人士获得企业数字化转型战略下的必备职业能力,促进开展工作实践应用及实际问题解决,形成企业所需的新数字经济下的核心职业竞争能力。DAMA是数据管理方面的认证,帮助数据从业者提升......
  • 平台工程动态 Monthly News 2023-12
    TOC项目与社区动态CNOE:云原生卓越运营领英工程团队开源了其开发者生产力与幸福感框架Backstage添加中文README会议与活动PlatformCon2024议题正在征集中KubeConEU2023回顾KubeConNA回顾TOP100全球软件案例研究峰会优质好文推荐微软推出平台工程学习课程......
  • 平台工程动态 Monthly News 2023-11
    本期内容导览项目与社区动态CNCF云原生技术全景图v22023平台工程调研报告CNCFAppDeliveryTAG发布中文网站CNCF平台工程成熟度模型发布Humanitec发布平台工程现状报告Gartner:中国的平台工程正处于萌芽期CNCFPaaP工作组正在起草「平台即产品」白皮书HashiCo......
  • 【2024-01-09】期待自己
    20:00假如运气是雨滴,希望你是密西西比河。                                                 ——海明威昨天被老板约谈说,问我规划的最新产品什么时候可以出第一个版本......
  • 复旦大学2023--2024学年第一学期(23级)高等代数I期末考试第七大题解答
    七、(10分) 设$A$为$n\,(n>1)$阶非异阵,$B$是$A$的逆阵. 任取$r$个指标$1\leqi_1<i_2<\cdots<i_r\leqn$, 剩余的指标记为$1\leqi_{r+1}<\cdots<i_n\leqn$.证明:$$|A|\cdotB\begin{pmatrix} i_1&i_2&\cdots&i_r\\ i_1&i_2&......
  • 2024.2 等我走遍了所有国度 等你终肯舍得回眸
    1.LOJ6405「ICPCWorldFinals2018」征服世界咋感觉不说原始咋建图的全是胡言乱语/qd学习了一下这个先强制每个\(b\)都和\(inf-dep_i\)匹配,问题中匹配的权值转化为\(dep_x+dep_y-2dep_{lca}-inf\),这样子最小费用循环流能够强制每个点都能进行匹配。拆点进行建图:\(in_......
  • 【愚公系列】2024年01月 WPF控件专题 ComboBox控件详解
    ......