首页 > 其他分享 >概述Spark主要特点

概述Spark主要特点

时间:2023-03-23 22:34:26浏览次数:31  
标签:DAG MapReduce 特点 引擎 概述 内存 计算 Spark

Spark是在MapReduce基础上产生的,它克服了MapReduce存在的性能低下、编程不够灵活等缺点。Spark作为一种DAG计算框架,其主要特点如下:

1、性能高效

其性能高效主要体现在以下几个方面:

  • 内存计算引擎:Spark允许用户将数据放到内存中以加快数据读取,进而提高数据处理性能。Spark提供了数据抽象RDD,它使得用户可将数据分布到不同节点上存储,并选择存储到内存或磁盘,或内存磁盘混合存储。
  • 通用DAG计算引擎:相比于MapReduce这种简单的两阶段计算引擎,Spark则是一种更加通用的DAG引擎,它使得数据可通过本地磁盘或内存流向不同计算单元而不是(像MapReduce那样)借助低效的HDFS。
  • 性能高效:Spark是在MapReduce基础上产生的,借鉴和重用了MapReduce众多已存在组件和设计思想,包括基于InputFormat和OutputFormat的读写组件、Shuffle实现、推测执行优化机制等,同时又引入了大量新颖的设计理念,包括允许资源重用、基于线程池的Executor、无排序Shuffle、通用DAG优化和调度引擎等。据有关测试结果表明,在相同资源消耗的情况下,Spark比MapReduce快几倍到几十倍。
2、简单易用

不像MapReduce那样仅仅局限于Mapper、Partitioner和Reducer等几种低级API,Spark提供了丰富的高层次API,包括sortByKey、groupByKey、cartesian(求笛卡尔积)等。为方便不同编程语言喜好的开发者,Spark提供了四种语言的编程API:Scala、Python、Java和R。从代码量方面比较,实现相同功能模块,Spark比MapReduce少2~5倍。

3、与Hadoop完好集成

Hadoop发展到现在,已经成为大数据标准解决方案,涉及数据收集、数据存储、资源管理以及分布式计算等一系列系统,它在大数据平台领域的地位不可撼动。Spark作为新型计算框架,将自己定位为除MapReduce等引擎之外的另一种可选的数据分析引擎,它可以与Hadoop进行完好集成:可以与MapReduce等类型的应用一起运行在YARN集群,读取存储在HDFS/HBase中的数据,并写入各种存储系统中。

概述Spark主要特点_spark

总之,Spark以上有别于MapReduce的特点,使得它在数据分析、数据挖掘和机器学习等方面得到广泛的应用,Spark已经取代MapReduce成为应用最广泛的大数据计算引擎,而基于MapReduce实现的开源机器学习库Mahout[插图]也已经迁移到Spark或Flink等新型DAG计算平台上。

标签:DAG,MapReduce,特点,引擎,概述,内存,计算,Spark
From: https://blog.51cto.com/key3feng/6145996

相关文章

  • Linux系统的六大特点,你知道几个?
    提到操作系统,大家肯定都知道Windows,其实Linux也是一个操作系统,与Windows不同的是,Linux是一套开放源代码程序的、可以自由传播的类Unix操作系统软件。以下是详细的内容:......
  • 操作系统概述
    操作系统概念脱机命令接口又称批处理命令接口,适用于批处理系统。联机命令接口又称交互式命令接口,适用于分时或实时系统。程序接口由一系列系统调用(即广义指令)组成。G......
  • HTTPS协议概述、HTTPS使用成本
    HTTPS协议概述 HTTPS可以认为是HTTP+TLSTLS是传输层加密协议,它的前身是SSL协议  HTTPS功能介绍内容加密1、非对称密匙交换2、对称内容加密身份认证1、......
  • 数据库系统原理之数据库系统概述
    数据库系统概述一、数据库基本概念1数据数据(Data)是描述事物的符号记录,是指用物理符号记录下来的、可以鉴别的信息。数据以及关于该数据的解释是密切相关的。数据的解......
  • HTTP协议特点
    HTTP协议特点支持客户/服务器模式客户/服务器模式工作的方式是由客户端向服务器发出请求,服务器端响应请求,并进行相应服务  简单快捷客户向服务器请求服务时,只需要......
  • 一统天下 flutter - dart: 概述
    一统天下flutterhttps://github.com/webabcd/flutter_demo作者webabcd一统天下flutter-dart:概述示例如下:lib\dart\summary.dart/**dart概述**注:......
  • OSPF基本概述及配置
    1.0OSPF的基本概念和工作过程开放式最短路径优先协议(OpenShortestPathFirst,OSPF)是基于开放标准的链路状态路由选择协议,它完成各路由协议算法的两大主要功能:路径交换和......
  • 第一章 计算机网络概述
    第一章计算机网络概述互联网的组成核心部分:由网络和连接网络的路由器组成。边缘部分:由连接在网络上的主机构成,也叫做端系统。端系统之间的两种通信方式客户......
  • Flink计算框架概述
    Flink是一个针对流数据和批数据的分布式处理引擎,主要用Java代码实现。目前,Flink主要还是依靠开源社区的贡献来发展的。对于Flink,其处理的数据主要是流数据,批数据只是流......
  • Java基础知识点(继承中构造方法的的访问特点
    一:概述​1.父类的构造方法不会被子类继承。2.子类中的构造方法默认先访问父类中的无参构造,在执行自己。换句话来说,子类不能得到父类的的构造方法,子类进行构造方法默认先访问......