首页 > 编程语言 >python spark 求解最大 最小 平均

python spark 求解最大 最小 平均

时间:2023-06-01 14:32:33浏览次数:46  
标签:info operations 求解 python statCounter rdd spark LOGGER mean

rdd=sc.parallelizeDoubles(testData);

Now we’ll calculate the mean of our dataset.

 


1


LOGGER.info("Mean: "+rdd.mean());

There are similar methods for other statistics operation such as max, standard deviation, …etc.

Every time one of this method is invoked , Spark performs the operation on the entire RDD data. If more than one operations performed, it will repeat again and again which is very inefficient. To solve this, Spark provides “StatCounter” class which executes once and provides results of all basic statistics operations in the same time.

 


1


StatCounter statCounter=rdd.stats();

Now results can be accessed as follows,

 


1

2

3

4

5

6

7


LOGGER.info("Count:    "+statCounter.count());
LOGGER.info("Min:      "+statCounter.min());
LOGGER.info("Max:      "+statCounter.max());
LOGGER.info("Sum:      "+statCounter.sum());
LOGGER.info("Mean:     "+statCounter.mean());
LOGGER.info("Variance: "+statCounter.variance());
LOGGER.info("Stdev:    "+statCounter.stdev());

 

摘自:http://www.sparkexpert.com/tag/rdd/


标签:info,operations,求解,python,statCounter,rdd,spark,LOGGER,mean
From: https://blog.51cto.com/u_11908275/6393855

相关文章

  • python spark kmeans demo
    官方的demofromnumpyimportarrayfrommathimportsqrtfrompysparkimportSparkContextfrompyspark.mllib.clusteringimportKMeans,KMeansModelsc=SparkContext(appName="clusteringExample")#Loadandparsethedatadata=sc.textFile("/......
  • spark Bisecting k-means(二分K均值算法)
    Bisectingk-means(二分K均值算法)    二分k均值(bisectingk-means)是一种层次聚类方法,算法的主要思想是:首先将所有点作为一个簇,然后将该簇一分为二。之后选择能最大程度降低聚类代价函数(也就是误差平方和)的簇划分为两个簇。以此进行下去,直到簇的数目等于用户给定的数目K为止。......
  • python dig 模拟—— DGA域名判定用
     #!/usr/bin/envpythonimportdns.resolver,sysdefget_domain_ip(domain):"""GettheDNSrecord,ifany,forthegivendomain."""dns_records=list()try:#getthednsresolutionsforthisdomain......
  • spark 常用参数和默认配置
    常用的Spark任务参数及其作用:spark.driver.memory:设置driver进程使用的内存大小,默认为1g。spark.executor.memory:设置每个executor进程使用的内存大小,默认为1g。spark.executor.cores:设置每个executor进程使用的CPU核数,默认为1。spark.default.parallelism:设置RDD的默......
  • 代码重复检查工具——python的使用CPD比较好用,clone digger针对py2
    代码重复检测:cpd--minimum-tokens100--filesg:\source\python\--languagepython>log.txt输出类似:=====================================================================Founda381line(1849tokens)duplicationinthefollowingfiles:Startingatline24of......
  • python通过文件操作字典
    python通过文件操作字典python把字典保存到文件中python从文件中加载字典importjsonmy_dict={'Apple':4,'Banana':2,'Orange':6,'Grapes':11,'area1':[[23,56],[66,12],[68,89],[90,890]]}#保存文件tf=open("myDictionary.js......
  • 6道Python简单的测试题,你知道答案吗?
    学Python光掌握基础理论知识是不够的,我们需要将理论知识转化为实战技能,本篇文章小编为大家整理了6道Python简单的测试题,快来检测一下你的Python基础怎么样!1、以下代码的输出结果为:print(round(-3.6))A.-4B.-4.0C.-3D.-3.02、以下代码的输出结果为......
  • python mock使用
    Overviewmock 是一个用于单元测试的Python库,它使用mock模拟系统中如class,method等部分,并且断言它们是如何被调用的。在编写单元测试时,mock非常适合模拟数据库,web服务器等依赖外部的场景。本文是mock的入门篇,主要介绍mock的基本用法。除了mock外,还有许多其它的moc......
  • python 合并k个有序链表
     fromheapqimportheappush,heappopclassSolution:defmergeKLists(self,lists):q=[]fori,headinenumerate(lists):ifhead:heappush(q,(head.val,i,head))node=dummy=ListNode(0)......
  • sparkSQL原理和使用——一般在生产中,基本都是使用hive做数据仓库存储数据,然后用spark
    一、sparkSQL概述1.1什么是sparkSQLSparkSQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。类似于hive的作用。1.2sparkSQL的特点1、容易集成:安装Spark的时候,已经集成好了。不需要单独安装。2、统一的数据访问方......