概述Spark主要特点

时间：2023-03-23 22:34:26浏览次数：43

Spark是在MapReduce基础上产生的，它克服了MapReduce存在的性能低下、编程不够灵活等缺点。Spark作为一种DAG计算框架，其主要特点如下：

1、性能高效

其性能高效主要体现在以下几个方面：

内存计算引擎：Spark允许用户将数据放到内存中以加快数据读取，进而提高数据处理性能。Spark提供了数据抽象RDD，它使得用户可将数据分布到不同节点上存储，并选择存储到内存或磁盘，或内存磁盘混合存储。
通用DAG计算引擎：相比于MapReduce这种简单的两阶段计算引擎，Spark则是一种更加通用的DAG引擎，它使得数据可通过本地磁盘或内存流向不同计算单元而不是（像MapReduce那样）借助低效的HDFS。
性能高效：Spark是在MapReduce基础上产生的，借鉴和重用了MapReduce众多已存在组件和设计思想，包括基于InputFormat和OutputFormat的读写组件、Shuffle实现、推测执行优化机制等，同时又引入了大量新颖的设计理念，包括允许资源重用、基于线程池的Executor、无排序Shuffle、通用DAG优化和调度引擎等。据有关测试结果表明，在相同资源消耗的情况下，Spark比MapReduce快几倍到几十倍。

2、简单易用

不像MapReduce那样仅仅局限于Mapper、Partitioner和Reducer等几种低级API,Spark提供了丰富的高层次API，包括sortByKey、groupByKey、cartesian（求笛卡尔积）等。为方便不同编程语言喜好的开发者，Spark提供了四种语言的编程API:Scala、Python、Java和R。从代码量方面比较，实现相同功能模块，Spark比MapReduce少2～5倍。

3、与Hadoop完好集成

Hadoop发展到现在，已经成为大数据标准解决方案，涉及数据收集、数据存储、资源管理以及分布式计算等一系列系统，它在大数据平台领域的地位不可撼动。Spark作为新型计算框架，将自己定位为除MapReduce等引擎之外的另一种可选的数据分析引擎，它可以与Hadoop进行完好集成：可以与MapReduce等类型的应用一起运行在YARN集群，读取存储在HDFS/HBase中的数据，并写入各种存储系统中。

概述Spark主要特点_spark

总之，Spark以上有别于MapReduce的特点，使得它在数据分析、数据挖掘和机器学习等方面得到广泛的应用，Spark已经取代MapReduce成为应用最广泛的大数据计算引擎，而基于MapReduce实现的开源机器学习库Mahout[插图]也已经迁移到Spark或Flink等新型DAG计算平台上。

标签：DAG,MapReduce,特点,引擎,概述,内存,计算,Spark
From： https://blog.51cto.com/key3feng/6145996

Linux系统的六大特点，你知道几个？
提到操作系统，大家肯定都知道Windows，其实Linux也是一个操作系统，与Windows不同的是，Linux是一套开放源代码程序的、可以自由传播的类Unix操作系统软件。以下是详细的内容：......
操作系统概述
操作系统概念脱机命令接口又称批处理命令接口，适用于批处理系统。联机命令接口又称交互式命令接口，适用于分时或实时系统。程序接口由一系列系统调用（即广义指令）组成。G......
HTTPS协议概述、HTTPS使用成本
HTTPS协议概述 HTTPS可以认为是HTTP+TLSTLS是传输层加密协议，它的前身是SSL协议 HTTPS功能介绍内容加密1、非对称密匙交换2、对称内容加密身份认证1、......
数据库系统原理之数据库系统概述
数据库系统概述一、数据库基本概念1数据数据（Data）是描述事物的符号记录，是指用物理符号记录下来的、可以鉴别的信息。数据以及关于该数据的解释是密切相关的。数据的解......
HTTP协议特点
HTTP协议特点支持客户/服务器模式客户/服务器模式工作的方式是由客户端向服务器发出请求，服务器端响应请求，并进行相应服务简单快捷客户向服务器请求服务时，只需要......
一统天下 flutter - dart: 概述
一统天下flutterhttps://github.com/webabcd/flutter_demo作者webabcd一统天下flutter-dart:概述示例如下:lib\dart\summary.dart/**dart概述**注：......
OSPF基本概述及配置
1.0OSPF的基本概念和工作过程开放式最短路径优先协议（OpenShortestPathFirst，OSPF）是基于开放标准的链路状态路由选择协议，它完成各路由协议算法的两大主要功能：路径交换和......
第一章计算机网络概述
第一章计算机网络概述互联网的组成核心部分：由网络和连接网络的路由器组成。边缘部分：由连接在网络上的主机构成，也叫做端系统。端系统之间的两种通信方式客户......
Flink计算框架概述
Flink是一个针对流数据和批数据的分布式处理引擎，主要用Java代码实现。目前，Flink主要还是依靠开源社区的贡献来发展的。对于Flink，其处理的数据主要是流数据，批数据只是流......
Java基础知识点（继承中构造方法的的访问特点
一：概述1.父类的构造方法不会被子类继承。2.子类中的构造方法默认先访问父类中的无参构造，在执行自己。换句话来说，子类不能得到父类的的构造方法，子类进行构造方法默认先访问......

概述Spark主要特点

1、性能高效

2、简单易用

3、与Hadoop完好集成

相关文章

赞助商

阅读排行