首页 > 其他分享 >今日总结

今日总结

时间:2024-01-25 21:57:35浏览次数:38  
标签:总结 MapReduce 支持 Hadoop SQL 今日 Spark 运行

Spark 四大特点

Spark 使用Scala语言进行实现,它是一种面向对、函数式编程语言,能够像操作本地集合一样轻松的操作分布式数据集。Spark具有运行速度快、易用性好、通用性强和随处运行等特点。

速度快

由于Apache Spark支持内存计算,并且通过DAG(有向无环图)执行引擎支持无环数据流,所以官方宣称其在内存中的运算速度要比Hadoop的MapReduce快100倍,在硬盘中要快10倍。

   Spark处理数据与MapReduce处理数据相比,有如下两个不同点:

  1.  其一、Spark处理数据时,可以将中间处理结果数据存储到内存中;
  1.  其二、Spark Job调度以DAG方式,并且每个任务Task执行以线程(Thread)方式,并不是像MapReduce以进程(Process)方式执行。

2014 年的如此Benchmark测试中,Spark 秒杀Hadoop,在使用十分之一计算资源的情况下,相同数据的排序上,Spark 比Map Reduce快3倍

易于使用

Spark 的版本已经更新到 Spark 2.4.5(截止日期2020.05.01),支持了包括 Java、Scala、Python 、R和SQL语言在内的多种语言。

​​​​​​​通用性强

在 Spark 的基础上,Spark 还提供了包括Spark SQL、Spark Streaming、MLib 及GraphX在内的多个工具库,我们可以在一个应用中无缝地使用这些工具库。其中,Spark SQL 提供了结构化的数据处理方式,Spark Streaming 主要针对流式处理任务(也是本书的重点),MLlib提供了很多有用的机器学习算法库,GraphX提供图形和图形并行化计算。

​​​​​​​运行方式

Spark 支持多种运行方式,包括在 Hadoop 和 Mesos 上,也支持 Standalone的独立运行模式,同时也可以运行在云Kubernetes(Spark 2.3开始支持)上。

对于数据源而言,Spark 支持从HDFS、HBase、Cassandra 及 Kafka 等多种途径获取数据。

标签:总结,MapReduce,支持,Hadoop,SQL,今日,Spark,运行
From: https://www.cnblogs.com/zhaoyueheng/p/17988262

相关文章

  • js中数组反转的方法总结
    1.常用的方法reverse()[1,2,3,4].reverse()  //[4,3,2,1]2.采用for循环方式使用递减循环遍历的方式,将元素一次存入新的数组中,新数组就是反转后的新数组constdataRef=[1,2,3,4]constnewArr:any[]=[]for(leti=dataRef.length-1;i>=0;i--){ne......
  • 李宏毅《机器学习》总结 - CNN
    使用场景:对图片进行分类首先,将图片变成向量。例如,对于一个彩色的\(N\timesN\)(这个N指的是像素个数)图片,其对应着一个\(N\timesN\times3\)的矩阵(其中3是图片的channel,在彩色图片中,每个像素由RGB构成,因此channel为3)一个初始的想法将这个矩阵拉长,变成一个向量,然后......
  • MAT使用思路总结
    参考:https://blog.csdn.net/x275920/article/details/123991656主要分为2种操作。简单粗暴来个内存泄漏分析LeakSuspects和TopConsumers,可以看出大部分简单的内存泄漏问题看保留堆/深堆RetainedHeap大的,这个表示如果这个对象被清理,那么RetainedHeap都是可以被清理的,所......
  • 选题要求分析总结
    问题:1、数据分布在不同的部门和系统中,数据采集难度大2、由于数据来源多样,且可能存在数据重复、数据不一致等问题3、缺乏专业的数据分析工具,导致数据分析能力不足,无法充分利用数据为决策提供支持4、缺乏有效的数据可视化工具,导致数据无法直观地展示,从而影响决策效率 功能:1......
  • Postman使用总结
    对于黑盒测试工程师来说,使用postman的场景无非就是拿它看看接口返回的数据。比对一下预期返回的参数与实际是否相符。所以我这里的postman使用方法仅限于如何调用接口。 首先,你需要下载postman(毋庸置疑,其实用网页版也可以)官网主页:https://www.postman.com/downloads/安装你......
  • Canal报错总结
    这是我的SQL表里面插入数据刷新下就可以看到已经查询出来了canal报错nosuchmethod…bytebuffer解决方法:更新jdk版本与es一致cancal报错configdirnotfound替换classpath中间封号两边的值canal控制台乱码将其改为GBK即可ERRORc.a.otter.canal.adapter.launcher......
  • canvas绘制图形总结
    ctx.beginPath()//新建一条路径,生成之后,图形绘制命令被指向到路径上生成路径。ctx.closePath()//闭合路径之后图形绘制命令又重新指向到上下文中。ctx.stroke()//通过线条来绘制图形轮廓。ctx.fill()//通过填充路径的内容区域生成实心的图形。 绘制矩形 ctx.save() ctx.......
  • 0124今日收获
    又是元气满满的一天今日代码1今日代码2今日代码3今日代码4今日代码5今日代码6今日代码7又是元气满满的一天......
  • 1.24总结
    packagecom.mediator;importcom.mediator.Annotations.CommandHandler;importcom.mediator.Annotations.EnableCommandHandler;importcom.mediator.Annotations.PipeLine;importcom.mediator.Mediator.IMediator;importcom.mediator.Mediator.impl.Mediator;impor......
  • petalinux 报错总结
    Failedtomenuconfigprojectcomponent....解决办法此处是由于Terminal(终端)的界面太窄导致的,把Terminal(终端)界面拉宽即可;重新执行命令【petalinux-config--get-hw-description=*.xsa“path”】后,可以看到配置界面弹出来了,且没有了刚刚的错误。do_rootfs:Thepostinstall......