大数据

大数据

时间：2022-11-09 10:55:28浏览次数：41

#大数据关键技术
hdfs MapReduce spark hbase flink

#大数据计算模式
批处理 ： 针对大规模数据的批量处理  （MapReduce、spark）
流计算 ： 针对流数据的实时计算 （flume、storm、s4、streams、puma、pstream、super mario、银河流数据处理平台等）
图计算 ： 针对大规模图结构数据的处理 （pregel、graphx，giraph等）
查询分析计算 ： 大规模数据的存储管理和查询分析 （Hive、dremel、Cassandra、Impala等）

spark sql

Map
Reduce
groupby
join
filter

spark和hadoop的区别

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）
差别MapReduce：
    hadoop： 读取-》写入-》读取-》写入
    spark： 读取-》储存在内存中-》读取-》储存在内存中
    内存中查询比磁盘中查询速度快

spark 可以替代hadoop中的MapReduce 
hadoop 中的HDFS，HBase 还是无法替代

spark概括

运行模式多样化 可访问：
HDFS ：分布式文件系统
Cassandra ：NoSQL数据库系统
HBase ：分布式的、面向列的开源数据库 分布式存储系统 （Hadoop Database）
    HBase系统上运行批处理运算，最方便和实用的模型依然是MapReduce
    使用Pig Latin流式编程语言来操作HBase中的数据
Hive ：Hadoop的一个数据仓库工具

spark生态系统

spark 基本概念和架构设计

RDD运行原理及概念

惰性机制：只记录轨迹，需要“动作触发计算”
避免不必要的序列换和反序列化
窄依赖 ：父对子 一对一 可流水线工作优化（map，filter，union）
宽依赖（Shuffle操作，写入磁盘）：父对子 一对多 不可流水线优化（groupByKey）

1.RDD读取外部数据源进行创建
2.RDD讲过一系列转换（Transformation）操作，每一次都会产生不同的RDD供给下一次转换操作使用
3.最后一个RDD经过“动作”操作进行转换并输出到外部数据源

RDD运行原理

saprk 运行流程

标签：读取,MapReduce,RDD,spark,数据,HBase
From： https://www.cnblogs.com/Pythonzrq/p/16872869.html

数据库快速入门教程--视频
数据库快速入门教程--视频下载地址：http://v.51work6.com/courseInfoRedirect.do?action=courseInfo&courseId=240579本课程是这个课程体系的核心之一，为软件......
每日一题之Vue数据劫持原理是什么？
什么是数据劫持?定义：数据劫持，指的是在访问或者修改对象的某个属性时，通过一段代码拦截这个行为，进行额外的操作或者修改返回结果。简单地说，就是当我们触发函数的时候动......
第06章数据检索
实现数据查询是创建数据库的重要功能之一，在SQLServer中，查询数据是通过SELECT语句实现的。SELECT语句能够从服务器的数据库中检索符合用户要求的数据，并以结果集的方式返回......
js提交数据
一、from表单提交<formaction=""method="post"enctype="multipart/form-data"><inputtype="submit"class="btnbtn-info">属性：action：是form表单提交数据的......
33.数据统计
数据统计后台系统首页中，显示各种统计数据，比如：累计用户数、新增用户数、登录次数等内容。解决方案数据库表分析一、数据采集需求：1、探花系统将用户操作日志写入Rab......
ArcGIS文件地理数据库体积、名字等的限值 File geodatabase size and name limits
sorry，Imjustacarrier.Filegeodatabasesize: NolimitTableorfeatureclasssize: 1TB(default),4GBor256TBwithkeywordNumberoffeatureclassesa......
go excelize 批量写入数据到Excel
funcCreateXlS(data[][]string,fileNamestring,headerNameArray[]string){f:=excelize.NewFile()sheetName:="sheet1"sheetWords:=[]strin......
利用python数据分析
利用python进行数据分析本书由Pythonpandas项目创始人WesMcKinney亲笔撰写，详细介绍利用Python进行操作、处理、清洗和规整数据等方面的具体细节和基本要点。第2版针对P......
SAP ABAP SE16N修改表的数据
T-CODE:SE16N输入表名称/H回车两次进入DEBUG模式GD-SAPEDIT值为'X'、GD-EDIT值为'X' 继续向下执行，可以看到表是可修改状态 ......
第四十一章构建数据库应用程序 - 带有CSP Search标签的CSP搜索页面
第四十一章构建数据库应用程序-带有<CSP:Search>标签的CSP搜索页面search标记创建一个通用搜索页面，可以将其与绑定表单一起使用以执行查找操作。应用程序用户可以从......

大数据

大数据

spark sql

spark和hadoop的区别

spark概括

spark生态系统

spark 基本概念和架构设计

RDD运行原理及概念

RDD运行原理

saprk 运行流程

相关文章

赞助商

阅读排行