首页 > 其他分享 >大数据

大数据

时间:2022-11-09 10:55:28浏览次数:38  
标签:读取 MapReduce RDD spark 数据 HBase

大数据

 

 

 

#大数据关键技术
hdfs MapReduce spark hbase flink

#大数据计算模式
批处理 : 针对大规模数据的批量处理  (MapReduce、spark)
流计算 : 针对流数据的实时计算 (flume、storm、s4、streams、puma、pstream、super mario、银河流数据处理平台等)
图计算 : 针对大规模图结构数据的处理 (pregel、graphx,giraph等)
查询分析计算 : 大规模数据的存储管理和查询分析 (Hive、dremel、Cassandra、Impala等)

 

spark sql

Map
Reduce
groupby
join
filter

 

spark和hadoop的区别

 

 

 

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)
差别MapReduce:
    hadoop: 读取-》写入-》读取-》写入
    spark: 读取-》储存在内存中-》读取-》储存在内存中
    内存中查询比磁盘中查询速度快

spark 可以替代hadoop中的MapReduce
hadoop 中的HDFS,HBase 还是无法替代


 

 

 

 

 

spark概括

运行模式多样化 可访问:
HDFS :分布式文件系统
Cassandra :NoSQL数据库系统
HBase :分布式的、面向列的开源数据库 分布式存储系统 (Hadoop Database)
    HBase系统上运行批处理运算,最方便和实用的模型依然是MapReduce
    使用Pig Latin流式编程语言来操作HBase中的数据
Hive :Hadoop的一个数据仓库工具

 

spark生态系统

 

 

 

 

 

spark 基本概念和架构设计

 

 

 

RDD运行原理及概念

惰性机制:只记录轨迹,需要“动作触发计算”
避免不必要的序列换和反序列化
窄依赖 :父对子 一对一 可流水线工作优化(map,filter,union)
宽依赖(Shuffle操作,写入磁盘):父对子 一对多 不可流水线优化(groupByKey)

1.RDD读取外部数据源进行创建
2.RDD讲过一系列转换(Transformation)操作,每一次都会产生不同的RDD供给下一次转换操作使用
3.最后一个RDD经过“动作”操作进行转换并输出到外部数据源

 

RDD运行原理

 

 

 

saprk 运行流程

 

标签:读取,MapReduce,RDD,spark,数据,HBase
From: https://www.cnblogs.com/Pythonzrq/p/16872869.html

相关文章

  • 数据库快速入门教程--视频
    ​​数据库快速入门教程--视频​​下载地址:​​http://v.51work6.com/courseInfoRedirect.do?action=courseInfo&courseId=240579​​本课程是这个课程体系的核心之一,为软件......
  • 每日一题之Vue数据劫持原理是什么?
    什么是数据劫持?定义:数据劫持,指的是在访问或者修改对象的某个属性时,通过一段代码拦截这个行为,进行额外的操作或者修改返回结果。简单地说,就是当我们触发函数的时候动......
  • 第06章 数据检索
    实现数据查询是创建数据库的重要功能之一,在SQLServer中,查询数据是通过SELECT语句实现的。SELECT语句能够从服务器的数据库中检索符合用户要求的数据,并以结果集的方式返回......
  • js提交数据
    一、from表单提交<formaction=""method="post"enctype="multipart/form-data"><inputtype="submit"class="btnbtn-info">属性:action:是form表单提交数据的......
  • 33.数据统计
    数据统计后台系统首页中,显示各种统计数据,比如:累计用户数、新增用户数、登录次数等内容。解决方案数据库表分析一、数据采集需求:1、探花系统将用户操作日志写入Rab......
  • ArcGIS文件地理数据库体积、名字等的限值 File geodatabase size and name limits
    sorry,Imjustacarrier.Filegeodatabasesize: NolimitTableorfeatureclasssize: 1TB(default),4GBor256TBwithkeywordNumberoffeatureclassesa......
  • go excelize 批量写入数据到Excel
    funcCreateXlS(data[][]string,fileNamestring,headerNameArray[]string){f:=excelize.NewFile()sheetName:="sheet1"sheetWords:=[]strin......
  • 利用python数据分析
    利用python进行数据分析本书由Pythonpandas项目创始人WesMcKinney亲笔撰写,详细介绍利用Python进行操作、处理、清洗和规整数据等方面的具体细节和基本要点。第2版针对P......
  • SAP ABAP SE16N修改表的数据
    T-CODE:SE16N输入表名称/H回车两次进入DEBUG模式GD-SAPEDIT值为'X'、GD-EDIT值为'X'  继续向下执行,可以看到表是可修改状态 ......
  • 第四十一章 构建数据库应用程序 - 带有CSP Search标签的CSP搜索页面
    第四十一章构建数据库应用程序-带有<CSP:Search>标签的CSP搜索页面search标记创建一个通用搜索页面,可以将其与绑定表单一起使用以执行查找操作。应用程序用户可以从......