首页 > 其他分享 >第一周总结

第一周总结

时间:2023-07-08 13:37:08浏览次数:28  
标签:总结 HDFS 存储 第一周 数据库 MapReduce Hadoop 数据

    这周学习了Hadoop的入门基础部分内容。

Hadoop是什么?

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

主要解决,海量数据的存储和海量数据的分析计算问题。

广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。Hadoop的三大发行版本Hadoop 三大发行版本:Apache、Cloudera、Hortonworks。Apache版本最原始(最基础)的版本,对于入门学习最好。

    1. Cloudera内部集成了很多大数据框架,对应产品CDH。2008
      Hortonworks文档较好,对应产品HDP。2011
      Hortonworks现在已经被Cloudera公司收购,推出新的品牌CDP。

      Hadoop优势(4高)
      1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
      2)高扩展性:在集群间分配任务数据,可方便的扩展数以干计的节点。可以动态增加服务器
      3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
      4)高容错性:能够自动将失败的任务重新分配。

      1.5 Hadoop组成,1.x 2.x 3.x区别(重点)


      1.5.1 HDFS架构概述
      Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。
      1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
      2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
      3)Secondarv NameNode(2nn):每隔一段时间对NameNode元数据备份。

       YARN架构概述
      Yet Another Resource Negotiator简称YARN,另一种资源协调者,是Hadoop的资源管理器。

      MapReduce架构概述
      MapReduce将计算过程分为两个阶段:Map和Reducee
      1)Map阶段并行处理输入数据
      2)Reduce 阶段对Map结果进行汇总

       大数据技术生态体系

      1)Sqoop:Sqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySQL)间进行数据的传递,可以将一个关系型数据库(例如:MySQL,Oracle等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
      2)Flume:Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;
      3)Kafka:Kafka是一种高吞吐量的分布式发布订阅消息系统;
      4)Spark:Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。
      5)Flink:Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。e
      6)Oozie:Oozie是一个管理Hadoop作业(job)的工作流程调度管理系统。
      7)Hbase:HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。
      8)Hive:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张
      数据库表,并提供简单的SOI.杳询功能,可以将SOI.语句转换为ManRediuce任务讲行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
      9)ZooKeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。

标签:总结,HDFS,存储,第一周,数据库,MapReduce,Hadoop,数据
From: https://www.cnblogs.com/ZRGUGUGU818/p/17537079.html

相关文章

  • 一周总结第二次
    这周完成了大部分pta固定题目集的试题,看了许多哔哩哔哩上关于Java的课程,黑马程序员的居多,现在感觉对于Java已经算是入门,也使用Java尝试了许多pta固定题目集上的前面一部分较为简单的试题。对于c++也学到许多在学校没有学习或没有深入了解到的东西,例如堆栈的vector以及队列的queue......
  • git 总结
    gitstash视频链接gitstash:工作区已经修改,但是需要在不提交的情况下切换到其他分支,此时可以使用gitstash来存储当前工作区的修改。gitstashpush//将工作区的修改放入一个栈中,此时工作区就变干净了可以push多个修改到栈中可以简写成gitstashgitstashpop//弹......
  • 第一周
    1.总结namespace的类型及功能namespace是Linux系统的底层概念,在内核层实现。容器只是运行在宿主机上的一种特殊的进程,那么多个容器之间使用的就还是同一个宿主机的操作系统内核。容器的本质就是一种特殊的进程,通过namespace实现容器运行空间的相互隔离后,再通过LinuxCgroups......
  • <折半搜索>题型总结
    折半搜索meetinthemiddle算法(又叫splitandmerge算法)顾名思义这种算法就是同时从两个点往中间搜索,直到碰头为止而使等式两边未知数个数相等或尽量均匀分布是用meetinthemiddle算法解决等式问题的常见方法SP4580ABCDEF题目描述给定一个集合S(元素个数100以内)求......
  • MySQL常用知识点总结
    MySQL常用知识点总结参考地址:(https://maifile.cn/est/a3206887806899/pdf)【一】知识点总结【二】多表查询【三】常用函数【四】Excel数据清洗......
  • 深度剖析之由浅入深揭秘JavaScript类型转换(最全总结篇)
    前言系列首发于公众号『前端进阶圈』,若不想错过更多精彩内容,请“星标”一下,敬请关注公众号最新消息。深度剖析之由浅入深揭秘JavaScript类型转换(最全总结篇)值类型转换将值从一种类型转换为另一种类型通常称为类型转换,分为隐式强制类型转换和显示强制类型转换。两者的区别在于......
  • 每日总结
    7月6日:今天更为深入的学习了大道至简的第四章,让我感觉到了不一样的java,沟通,人与人之间的沟通是必不可少的,我们要合力完成某个项目便需要沟通。开发项目也需要与客户沟通,知道在各个阶段都想干什么,能干什么,而不是一味的埋头。......
  • 2023.7.7 集训总结
    2023.7.7集训总结期末考试已经结束,文化课的同学们也已经放假,竞赛也停课集训了一段时间。现对这段时间的集训进行总结。CFCF的两场Div1或多或少地体现了我的缺陷:深入思考太慢,分析太久,在OI赛制可能还足够,但是在只有两个小时的CF赛制中却出现了问题,简单的T1要50分钟才能AC,导致T2......
  • 7.7总结
    今天上午起床之后刷了会抖音,并没有像昨天说的那样,去检查idea连接的数据库是否正确,看了会java视频,中午随便吃了点,下午做了会pta,学了一小会前端的知识,然后晚上八点参加部门所拉赞助的活动,参加完就刷视频,然后睡觉......
  • 20230706巴蜀暑期集训测试总结
    T1我是个大聪明!一眼矩乘。构造转移矩阵构造了3.5h!最开始以为只有\(15\times15\),直接手打。写到一半发现不一定四种颜色都有,是\(52\times52\)的,这时候狗被脑子吃了,还想手打,于是就打到了3h。差不多打了一大半,脑子终于把狗还回来了,意识到就算打完也不可能调得出来,就开始另辟蹊径,......