首页 > 其他分享 >8.17

8.17

时间:2024-08-17 17:48:43浏览次数:12  
标签:Hadoop 集群 内存 计算 8.17 数据 Spark

ok  先来说一下 近期变化   

变胖了一点点  吃的太好了 

and 买了平板电脑

今天刚到  

然后 今天闯了个红灯 感觉非常不好

spark 环境搭建失败 失败......................fuck

尽管 Spark 相对于 Hadoop 而言具有较大优势,但 Spark 并不能完全替代 Hadoop,Spark 主要用于替代Hadoop中的 MapReduce 计算模型。存储依然可以使用 HDFS,但是中间结果可以存放在内存中;调度可以使用 Spark 内置的,也可以使用更成熟的调度系统 YARN 等。

我的 虚拟机内存好像不太足

Hadoop Spark
类型 分布式基础平台, 包含计算, 存储, 调度 分布式计算工具
场景 大规模数据集上的批处理 迭代计算, 交互式计算, 流计算
价格 对机器要求低, 便宜 对内存有要求, 相对较贵
编程范式 Map+Reduce, API 较为底层, 算法适应性差 RDD 组成 DAG 有向无环图, API 较为顶层, 方便使用
数据存储结构 MapReduce 中间计算结果存在 HDFS 磁盘上, 延迟大 RDD 中间运算结果存在内存中 , 延迟小
运行方式 Task 以进程方式维护, 任务启动慢 Task 以线程方式维护, 任务启动快
实际上,Spark 已经很好地融入了 Hadoop 生态圈,并成为其中的重要一员,它可以借助于 YARN 实现资源调度管理,借助于 HDFS 实现分布式存储。

此外,Hadoop 可以使用廉价的、异构的机器来做分布式存储与计算,但是,Spark 对硬件的要求稍高一些,对内存与 CPU 有一定的要求。

1.3 Spark 优势及特点
1.3.1 优秀的数据模型和丰富计算抽象
首先看看MapReduce,它提供了对数据访问和计算的抽象,但是对于数据的复用就是简单的将中间数据写到一个稳定的文件系统中(例如 HDFS),所以会产生数据的复制备份,磁盘的I/O以及数据的序列化,所以在遇到需要在多个计算之间复用中间结果的操作时效率就会非常的低。而这类操作是非常常见的,例如迭代式计算,交互式数据挖掘,图计算等。

因此 AMPLab 提出了一个新的模型,叫做 RDD。

RDD 是一个可以容错且并行的数据结构(其实可以理解成分布式的集合,操作起来和操作本地集合一样简单),它可以让用户显式的将中间结果数据集保存在 内存 中,并且通过控制数据集的分区来达到数据存放处理最优化。同时 RDD 也提供了丰富的 API (map、reduce、filter、foreach、redeceByKey...)来操作数据集。
后来 RDD 被 AMPLab 在一个叫做 Spark 的框架中提供并开源。

1.3.2 完善的生态圈-fullstack


Spark有完善的生态圈,如下:

Spark Core:实现了 Spark 的基本功能,包含 RDD、任务调度、内存管理、错误恢复、与存储系统交互等模块。
Spark SQL:Spark 用来操作结构化数据的程序包。通过 Spark SQL,我们可以使用 SQL 操作数据。
Spark Streaming:Spark 提供的对实时数据进行流式计算的组件。提供了用来操作数据流的 API。
Spark MLlib:提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等,还提供了模型评估、数据导入等额外的支持功能。
GraphX(图计算):Spark 中用于图计算的 API,性能良好,拥有丰富的功能和运算符,能在海量数据上自如地运行复杂的图算法。
集群管理器:Spark 设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。
Structured Streaming:处理结构化流,统一了离线和实时的 API。
1.3.3 spark的特点
快:与 Hadoop 的 MapReduce 相比,Spark 基于内存的运算要快 100 倍以上,基于硬盘的运算也要快 10 倍以上。Spark 实现了高效的 DAG 执行引擎,可以通过基于内存来高效处理数据流。

易用:Spark 支持 Java、Python、R 和 Scala 的 API,还支持超过 80 种高级算法,使用户可以快速构建不同的应用。而且 Spark 支持交互式的 Python 和 Scala 的 shell,可以非常方便地在这些 shell 中使用 Spark 集群来验证解决问题的方法。

通用:Spark 提供了统一的解决方案。Spark 可以用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX),这些不同类型的处理都可以在同一个应用中无缝使用。

兼容性:Spark 可以非常方便地与其他的开源产品进行融合。比如,Spark 可以使用 Hadoop 的 YARN 和 Apache Mesos 作为它的资源管理和调度器,并且可以处理所有 Hadoop 支持的数据,包括 HDFS、HBase 和 Cassandra 等。这对于已经部署 Hadoop 集群的用户特别重要,因为不需要做任何数据迁移就可以使用 Spark 的强大处理能力。

1.4 Spark 运行模式
① local 本地模式(单机)

学习测试使用
分为 local 单线程和 local-cluster 多线程。
② standalone 独立集群模式

学习测试使用
典型的 Mater/slave 模式。
③ standalone-HA 高可用模式

生产环境使用
基于 standalone 模式,使用 zk 搭建高可用,避免 Master 是有单点故障的。
④ on yarn 集群模式

生产环境使用
运行在 yarn 集群之上,由 yarn 负责资源管理,Spark 负责任务调度和计算。
好处:计算资源按需伸缩,集群利用率高,共享底层存储,避免数据跨集群迁移。
⑤ on mesos 集群模式

国内使用较少
运行在 mesos 资源管理器框架之上,由 mesos 负责资源管理,Spark 负责任务调度和计算。
⑥ on cloud 集群模式

中小公司未来会更多的使用云服务
比如 AWS 的 EC2,使用这个模式能很方便的访问 Amazon 的 S3。
————————————————

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

原文链接:https://blog.csdn.net/qq_20042935/article/details/125536640

标签:Hadoop,集群,内存,计算,8.17,数据,Spark
From: https://www.cnblogs.com/wcy1111/p/18364717

相关文章

  • 8.17日周记
    一、C语言学习1.pow函数用法:pow(底数,指数)例子:pow(x,2)=x²2.abs函数用法:abs(n)取n的绝对值3.strstr函数:搜索字符串1是否在字符串2中出现,若未搜索到,则返回NULL;若搜索到,则该函数返回第一次出现s2的地址。4.strcpy函数:用法:strcpy(字符串1,字符串2);strcpy函数将字符......
  • ubuntu(linux):安装node(v18.17.1)
     一,访问官网https://nodejs.org/en得到下载包地址:二,下载/解压下载:root@lhdpc:/usr/local/source/node#wgethttps://nodejs.org/dist/v18.17.1/node-v18.17.1-linux-x64.tar.xz解压:root@lhdpc:/usr/local/source/node#xz-dnode-v18.17.1-linux-x64.tar.xzro......
  • 8.17
    1.加载class文件2.申明局部变量3.在堆内存中开辟一个空间4.默认初始化5.显示初始化6.构造方法初始化7.将堆内存中的地址值赋值给左边的局部变量.Api应用程序编程接口Random随机数格式:java.util.RandomRandomr=newRandom();inthurt=r.Random();//表示随机数inthurt=r......
  • KubeSphere 社区双周报 | Java functions framework 支持 SkyWalking | 2023.8.4-8.17
    KubeSphere社区双周报主要整理展示新增的贡献者名单和证书、新增的讲师证书以及两周内提交过commit的贡献者,并对近期重要的PR进行解析,同时还包含了线上/线下活动和布道推广等一系列社区动态。本次双周报涵盖时间为:2023.08.04-2023.08.17。贡献者名单新晋KubeSphereCon......
  • 8.17日
    在海边肆无忌惮的奔跑炙热的太阳粗板的沙石在茫茫草原苏醒看不到边际累了就席地而卧尘土不能沾染我一缕刺目的阳光照射丁达尔效应蔓延原始森林的一切焕然新生或是都市里喧嚣的街头咖啡厅的角落不同的场景在我的脑海不断变换我会静下心感受每一次的洗礼我感叹还好还好我有属......
  • 暑假周记(8.17)
    SimpleDateFormat格式化日期设置和获取日期数据的特定部分创建Calendar对象对象字段类型Calendar.YEARCalendar.MONTHCalendar.DATE(Calendar.DAY_OF_MONTH)Calendar.HOUR:12小时制Calendar.HOUR_OF_DAY:24小时制Calendar.MINUTECalendar.SECONDCalendar.DAY_OF_WEEK:星期几,1表示星期......
  • 8.17 后记
    T1原来组合数有通项公式(大雾)线性求逆元:显然,\(1^{-1}\equiv1(\operatorname{mod}p)\)令\(k=\lfloor\frac{p}{i}\rfloor,j=p\operatorname{mod}i\),则\(p=i\timesk+j\)则\(0\equivi\timesk+j(\operatorname{mod}p)\)两边同时乘\(i^{-1}\timesj^{-1}\)得\(0......
  • 8.17 模拟赛 & 学习笔记
    三天模拟赛+讲课,请的wyz大佬。主要是搞图论这一块。(大概能逃3天军训罢。)评价今日模拟赛:据说对标noip难度但显然放了很大的水。可惜好像手感很不好,是rank12/20。再接再厉?大家都强强强!我弱弱弱!模拟赛题目传送门A.泰拉大陆,原CF601A错因是小条件判错了??诶嘿。由于模拟......
  • 闲话8.17
    今天摆了。上午模拟赛,开题真就绷不住了......
  • 8.17
    #include<bits/stdc++.h>usingnamespacestd;constintN=1e5+10;map<vector<int>,int>st,cnt;//使用map实现对vector的映射(pair不可以,不能产生索引)vector<int>v[N];//结构体中重名无所谓,会产生屏蔽structNode{intcnt;vector<int>v;}no......