首页 > 其他分享 >1-spark学习路线-spark 概述

1-spark学习路线-spark 概述

时间:2023-09-14 13:01:46浏览次数:35  
标签:MapReduce Hadoop 路线 概述 内存 磁盘 spark Spark

一. spark和hadoop

MapReduce

Spark

数据存储结构:磁盘HDFS文件系统的split

使用内存构建弹性分布式数据集RDDs对数据进行运算和cache

编程范式:Map + Reduce

DAG: Transformation + Action

计算中间结果落到磁盘IO及序列化、反序列化代价大

计算中间结果在内存中维护存取速度比磁盘高几个数量级

Task以进程的方式维护,需要数秒时间才能启动任务

Task以线程的方式维护对于小数据集读取能够达到亚秒级的延迟

hadoop缺点: 1.表达能力有限(MapReduce) 2.磁盘IO开销大(shuffle) 3.延迟高 spark: 1.Spark的计算模式属于MapReduce,在借鉴Hadoop MapReduce优点的同时很好地解决了MapReduce所面临的问题 2.不局限于Map和Reduce操作,还提供了多种数据集操作类型,编程模型比Hadoop MapReduce更灵活 3.Spark提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更高 4.Spark基于DAG的任务调度执行机制,要优于Hadoop MapReduce的迭代执行机制(函数调用) 使用Hadoop进行迭代计算非常耗资源; Spark将数据载入内存后,之后的迭代计算都可以直接使用内存中的中间结果作运算,避免了从磁盘中频繁读取数据


标签:MapReduce,Hadoop,路线,概述,内存,磁盘,spark,Spark
From: https://blog.51cto.com/u_16110906/7469075

相关文章

  • KafKa概述
    概述KafKa就是一个消息队列:作用概况为:解耦、异步、削峰https://juejin.cn/post/6996826368512098317使用消息队列的好处解耦(类似Spring的IOC)允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。可恢复性系统的一部分组件失效时,不会影响到整个......
  • Web前端学习路线
    学习Web前端需要的精选的书本和网络资源HTML教程CSS教程JavaScript教程BootStrap教程AJAX教程Node.js教程Vue.js教程React教程此外,在b站上有很多教学视频,亲测有效!不积跬步,无以至千里;不积小流,无以成江海。---《荀子》Web前端的方向和分支方向低代码方向前端......
  • BSP画刷的概述和使用方法
    什么是BSP画刷BSP(BinarySpacePartitioning,二进制空间分区)画刷是UE早期设计关卡的主要工具后来,随着静态网格体的优点越来越明显,BSP画刷在大型模型创建中的作用已经相对减少。但由于BSP画刷不需要借助第三方3D建模软件便能独立完成三维模型制作,因此其快捷、不需引入第三方软件......
  • RocketMQ-(9-1)-MQTT-EventBridge概述
    RocketMQMQTT概览传统的消息队列MQ主要应用于服务(端)之间的消息通信,比如电商领域的交易消息、支付消息、物流消息等等。然而在消息这个大类下,还有一个非常重要且常见的消息领域,即IoT类终端设备消息。近些年,我们看到随着智能家居、工业互联而兴起的面向IoT设备类的消息正在呈爆炸式......
  • RocketMQ教程-(4)-领域模型概述
    ApacheRocketMQ是一款典型的分布式架构下的中间件产品,使用异步通信方式和发布订阅的消息传输模型。通信方式和传输模型的具体说明,请参见下文通信方式介绍和消息传输模型介绍。ApacheRocketMQ产品具备异步通信的优势,系统拓扑简单、上下游耦合较弱,主要应用于异步解耦,流量削峰填......
  • 01_计算机系统概述
    计算机系统概述操作系统的概念(定义)概念:操作系统是指控制和管理整个计算机系统的硬件和软件资源,并合理的组织调度计算机的工作和资源的分配;以提供给用户和其他软件方便的接口和环境;他是计算机系统中最基本的系统软件。操作系统的层次结构:执行一个程序前需要将该程序放到内......
  • 【Spark】Spark基础教程
    Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark特点Spark具有如下几个主要特点:运行速度快:Spark使用先进的DAG(DirectedAcyclicGraph,有向无环图)执行引擎,以支持循环数据流与内存计算,基......
  • Redis7 10大数据类型(概述)
    一、概述二、数据类型1、redis字符串(String)String(字符串)string是redis最基本的类型,一个key对应一个value。string类型是二进制安全的,意思是redis的string可以包含任何数据,比如jpg图片或者序列化的对象。string类型是Redis最基本的数据类型,一个redis中字符串value最多可以是51......
  • Spark基础——scala基础1.0
    定义对象和强制转化1.定义规则var变量名:变量类型=初始值vari:Int=10varj:Double=3.33//var变量名:变量类型=初始值valo:Int=2//val常量名:变量类型=初始值变量声明时,必须要有初始值i=20//var修饰的变量可以改变,val则不可改变varl=3.33valp="......
  • 1. Java语言概述
    1.Java语言概述1.Java技术体系JavaSE(JavaStandardEdition)标准版JavaEE(JavaEnterpriseEdition)企业版JavaME(JavaMicroEdition)小型版2.Java开发环境介绍‍JDK(javaDevelopmentkit):是Java程序开发工具包,包含JRE和开发人员使用的工具。JRE(JavaRun......