1-spark学习路线-spark 概述

时间：2023-09-14 13:01:46浏览次数：36

标签：MapReduce Hadoop 路线概述内存磁盘 spark Spark

一. spark和hadoop

MapReduce	Spark
数据存储结构：磁盘HDFS文件系统的split	使用内存构建弹性分布式数据集RDDs对数据进行运算和cache
编程范式：Map + Reduce	DAG: Transformation + Action
计算中间结果落到磁盘IO及序列化、反序列化代价大	计算中间结果在内存中维护存取速度比磁盘高几个数量级
Task以进程的方式维护，需要数秒时间才能启动任务	Task以线程的方式维护对于小数据集读取能够达到亚秒级的延迟

hadoop缺点: 1.表达能力有限(MapReduce) 2.磁盘IO开销大(shuffle) 3.延迟高 spark: 1.Spark的计算模式属于MapReduce,在借鉴Hadoop MapReduce优点的同时很好地解决了MapReduce所面临的问题 2.不局限于Map和Reduce操作，还提供了多种数据集操作类型，编程模型比Hadoop MapReduce更灵活 3.Spark提供了内存计算，可将中间结果放到内存中，对于迭代运算效率更高 4.Spark基于DAG的任务调度执行机制，要优于Hadoop MapReduce的迭代执行机制(函数调用) 使用Hadoop进行迭代计算非常耗资源； Spark将数据载入内存后，之后的迭代计算都可以直接使用内存中的中间结果作运算，避免了从磁盘中频繁读取数据

标签：MapReduce,Hadoop,路线,概述,内存,磁盘,spark,Spark
From： https://blog.51cto.com/u_16110906/7469075

KafKa概述
概述KafKa就是一个消息队列：作用概况为：解耦、异步、削峰https://juejin.cn/post/6996826368512098317使用消息队列的好处解耦（类似Spring的IOC）允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。可恢复性系统的一部分组件失效时，不会影响到整个......
Web前端学习路线
学习Web前端需要的精选的书本和网络资源HTML教程CSS教程JavaScript教程BootStrap教程AJAX教程Node.js教程Vue.js教程React教程此外，在b站上有很多教学视频，亲测有效!不积跬步，无以至千里；不积小流，无以成江海。---《荀子》Web前端的方向和分支方向低代码方向前端......
BSP画刷的概述和使用方法
什么是BSP画刷BSP（BinarySpacePartitioning，二进制空间分区）画刷是UE早期设计关卡的主要工具后来，随着静态网格体的优点越来越明显，BSP画刷在大型模型创建中的作用已经相对减少。但由于BSP画刷不需要借助第三方3D建模软件便能独立完成三维模型制作，因此其快捷、不需引入第三方软件......
RocketMQ-(9-1)-MQTT-EventBridge概述
RocketMQMQTT概览传统的消息队列MQ主要应用于服务（端）之间的消息通信，比如电商领域的交易消息、支付消息、物流消息等等。然而在消息这个大类下，还有一个非常重要且常见的消息领域，即IoT类终端设备消息。近些年，我们看到随着智能家居、工业互联而兴起的面向IoT设备类的消息正在呈爆炸式......
RocketMQ教程-(4)-领域模型概述
ApacheRocketMQ是一款典型的分布式架构下的中间件产品，使用异步通信方式和发布订阅的消息传输模型。通信方式和传输模型的具体说明，请参见下文通信方式介绍和消息传输模型介绍。ApacheRocketMQ产品具备异步通信的优势，系统拓扑简单、上下游耦合较弱，主要应用于异步解耦，流量削峰填......
01_计算机系统概述
计算机系统概述操作系统的概念（定义）概念：操作系统是指控制和管理整个计算机系统的硬件和软件资源，并合理的组织调度计算机的工作和资源的分配；以提供给用户和其他软件方便的接口和环境；他是计算机系统中最基本的系统软件。操作系统的层次结构：执行一个程序前需要将该程序放到内......
【Spark】Spark基础教程
Spark最初由美国加州伯克利大学的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。Spark特点Spark具有如下几个主要特点：运行速度快：Spark使用先进的DAG（DirectedAcyclicGraph，有向无环图）执行引擎，以支持循环数据流与内存计算，基......
Redis7 10大数据类型(概述)
一、概述二、数据类型1、redis字符串(String)String（字符串）string是redis最基本的类型，一个key对应一个value。string类型是二进制安全的，意思是redis的string可以包含任何数据，比如jpg图片或者序列化的对象。string类型是Redis最基本的数据类型，一个redis中字符串value最多可以是51......
Spark基础——scala基础1.0
定义对象和强制转化1.定义规则var变量名：变量类型=初始值vari:Int=10varj:Double=3.33//var变量名：变量类型=初始值valo:Int=2//val常量名：变量类型=初始值变量声明时，必须要有初始值i=20//var修饰的变量可以改变，val则不可改变varl=3.33valp="......
1. Java语言概述
1.Java语言概述1.Java技术体系JavaSE(JavaStandardEdition)标准版JavaEE(JavaEnterpriseEdition)企业版JavaME(JavaMicroEdition)小型版2.Java开发环境介绍‍JDK(javaDevelopmentkit)：是Java程序开发工具包，包含JRE和开发人员使用的工具。JRE(JavaRun......

1-spark学习路线-spark 概述

相关文章

赞助商

阅读排行