首页 > 其他分享 >Spark介绍

Spark介绍

时间:2024-01-22 20:56:28浏览次数:26  
标签:需要 MapReduce 介绍 Hadoop 使用 Spark 数据

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

问题
工具只在解决了一些问题时才有用,对吧!那么让我们来讨论一下 Spark 能解决的问题。


我们需要(快速获取)答案
在批处理过程中,长时间等待运行作业的结果是意料中的事,在如今的企业中,需要快速(“近实时”)获取答案。大数据的属性(速度、数据量和种类)使得业务问题越来越难获得答案,但快速获取这些答案非常重要。


数据如此之多
数据源数不胜数且仍在增加。从 IoT 设备、实时交易、单击流、应用到社交媒体等,数据源在不断增加。所有数据都需要经过一定的处理,这样分析师才能理解并从中获取业务价值。现在您需要能处理所有这些数据,以便将它们转化为某种能使用的信息。能够以越来越快的速度处理从越来越多来源传入的海量数据,这一点很重要!


A 与 B(以及 C、D 等等)有何关联?
您拥有所有这些有用的数据,从客户交易、社交媒体交互到地理空间数据等等。现在您需要了解所有这些维度如何相互关联。重要的是能看到对这个数据图的全面分析结果,从而确定哪些数据维至关重要,哪些毫无价值。


我们需要知道(何时)将会发生什么
您拥有所有这些宝贵的历史数据。太棒了!现在您需要分析它们,了解发生了什么和发生的原因,以便能预测接下来会发生什么。重要的是能够分析所有这些数据,以便预测将会发生的业务事件。


Apache Spark 不是什么
我们常常(且很容易)合并解决一组类似问题的两种或更多相关技术,而且在不能互换使用它们时互换使用了它们。为了避免在 Spark 上犯这种错误,让我们讨论一下它不是什么。


Hadoop
Hadoop 是一种大数据文件存储和数据处理框架,它使用一种称为 MapReduce 的技术从一个庞大的磁盘集群读取数据,转换数据,并将数据写回磁盘。另一方面,Spark 使用有向非循环图 (DAG) 通过一系列步骤处理内存中的数据,这些步骤之间相互依赖(Gradle 也使用了一种 DAG),而且不会像 Hadoop(通过 Hadoop 分布式文件系统,HDFS)那样处理文件存储本身。


MapReduce
人们很容易将 Spark Core 与 MapReduce 混淆,因为它们在大数据领域都很重要。MapReduce 基本来讲是一种单通算法:读入数据,MapReduce 转换它,然后将数据写回到磁盘。如果需要另一次转换,则会重复这些步骤。另一方面,Spark 在内存中执行所有处理工作(如有必要,还会执行多次迭代),并使用 DAG 确定要执行步骤的最佳顺序。


与 Hadoop 相互排斥
Spark 被设计为与 Hadoop 兼容,所以 Hadoop 和 Spark 可以紧密协作。事实上,Spark 下载包含用于使用 HDFS(用于存储管理)和 YARN(用于资源管理和调度)的 Hadoop 客户端库。

标签:需要,MapReduce,介绍,Hadoop,使用,Spark,数据
From: https://www.cnblogs.com/LIXIHENG/p/17981052

相关文章

  • iOS应用程序混淆加固原理及逆向工具介绍
    概要本文将介绍iOS应用程序混淆加固的原理和常见的加固类型,以及介绍一些常用的逆向工具。同时还会介绍一种代码虚拟化技术,用于进一步保护应用程序不被逆向分析。 引言移动应用程序开发面临着越来越严峻的安全挑战,特别是在越狱设备上,应用程序的可执行文件容易受到逆向工具的......
  • 实验 3 Spark 和 Hadoop 的安装
    (1)启动Hadoop,在HDFS中创建用户目录“/user/hadoop”;  (2)在Linux系统的本地文件系统的“/home/hadoop”目录下新建一个文本文件test.txt,并在该文件中随便输入一些内容,然后上传到HDFS的“/user/hadoop”目录下;  (3)把HDFS中“/user/hadoop”目录下的test.txt......
  • 【glibc】glib库单向链表GSList介绍
    glib库单向链表介绍glib库里实现了一些基本的数据结构,比如单向链表,双向链表、队列、树、hash表和数组。这篇文章里我主要介绍在linux平台下使用glib库中的单向链表进行编程,以后的文章我会陆续介绍双向链表、队列和其它数据结构的用法。单向链表(即GSList)是glib库里最简单的容具,它......
  • 【glibc】glib库双向链表GList介绍
    在上一篇文章里我介绍了glib库中单向链表的用法,这篇文章介绍glib库双向链表的用法,还是沿用上一篇文章的风格,采用在代码中加入注释来说明代码,最后贴出程序的运行结果,然后加以少量说明。双向链表与单向链表的区别是,从一个节点,不仅能访问到它的下一个节点,还能访问到它的上一个节点,其......
  • Spark SQL五大关联策略
    1、五种连接策略选择连接策略的核心原则是尽量避免shuffle和sort的操作,因为这些操作性能开销很大,比较吃资源且耗时,所以首选的连接策略是不需要shuffle和sort的hash连接策略。◦BroadcastHashJoin(BHJ):广播散列连接◦ShuffleHashJoin(SHJ):洗牌散列连接◦ShuffleSortMergeJoi......
  • 【glibc】glib库数组GArray介绍
    glib库中的数组GArray类型很像C++标准容器库中的vector容器。要使用glib库中的数组中需要声明一个指向GArray类型的指针。GArray的定义如下:structGArray{gchar*data;guintlen;};然后就可以在这个数组前或者数组后添加数据,添加数据的时候数组也会像C++中的vector容器......
  • 【glibc】glib库hash表GHashTable介绍
    hash表是一种提供key-value访问的数据结构,通过指定的key值可以快速的访问到与它相关联的value值。hash表的一种典型用法就是字典,通过单词的首字母能够快速的找到单词。关于hash表的详细介绍请查阅数据结构的相关书籍,我这里只介绍glib库中hash表的基本用法。要使用一个hash表首先必......
  • 【glibc】glib库队列GQueue介绍
    队列是一种向最后添加条目,从最前删除条目的数据结构,这种数据结构在处理按顺序到达的数据是很有用。glib库提供的队列GQueue是一个双端队列,它的实现基础是双向链表,所以它支持在队列的两端进行添加和删除,也支持很多其它的操作,比如在队列中进行插入和删除,但是我不推荐使用这样的功能......
  • 画眉(京东科技设计稿转代码平台)介绍
    前言随着金融App业务的不断发展,为了满足不同场景下的用户体验及丰富的业务诉求,业务产品层面最直接体现就是大量新功能的上线及老业务的升级,随之也给研发带来了巨大的压力,所以研发效率的提升就是当前亟需解决的问题,今天我们来看下“画眉”平台是如何帮助前端研发同学提效的。前端......
  • 面像对象介绍
    '''面像过程:思想工厂流水线:买土豆-->清洗土豆-->处理土豆-->油炸土豆-->调味-->包装-->薯片吃饭1-学怎么样子做2-买菜3-洗菜4-备菜5-炒菜6-吃饭面像对象思想:只需要找到对象不需要关注对象的具体功能手机不能够直接创建手机对象想要创建自定义对象的前提需要有类的(class)对照......