第一周总结

第一周总结

时间：2023-07-08 13:37:08浏览次数：35

标签：总结 HDFS 存储第一周数据库 MapReduce Hadoop 数据

这周学习了Hadoop的入门基础部分内容。

Hadoop是什么？

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

主要解决，海量数据的存储和海量数据的分析计算问题。

广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。Hadoop的三大发行版本Hadoop 三大发行版本：Apache、Cloudera、Hortonworks。Apache版本最原始（最基础）的版本，对于入门学习最好。

Cloudera内部集成了很多大数据框架，对应产品CDH。2008
Hortonworks文档较好,对应产品HDP。2011
Hortonworks现在已经被Cloudera公司收购，推出新的品牌CDP。

Hadoop优势（4高）
1）高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。
2）高扩展性：在集群间分配任务数据，可方便的扩展数以干计的节点。可以动态增加服务器
3）高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。
4）高容错性：能够自动将失败的任务重新分配。

1.5 Hadoop组成，1.x 2.x 3.x区别（重点）

1.5.1 HDFS架构概述
Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。
1）NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。
2)DataNode(dn)：在本地文件系统存储文件块数据，以及块数据的校验和。
3)Secondarv NameNode(2nn)：每隔一段时间对NameNode元数据备份。

YARN架构概述
Yet Another Resource Negotiator简称YARN,另一种资源协调者,是Hadoop的资源管理器。

MapReduce架构概述
MapReduce将计算过程分为两个阶段：Map和Reducee
1）Map阶段并行处理输入数据
2）Reduce 阶段对Map结果进行汇总

大数据技术生态体系

1）Sqoop：Sqoop是一款开源的工具，主要用于在Hadoop、Hive与传统的数据库（MySQL）间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。
2）Flume：Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；
3）Kafka：Kafka是一种高吞吐量的分布式发布订阅消息系统；
4）Spark：Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。
5）Flink：Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。e
6）Oozie：Oozie是一个管理Hadoop作业（job）的工作流程调度管理系统。
7）Hbase:HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。
8）Hive：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张
数据库表，并提供简单的SOI.杳询功能，可以将SOI.语句转换为ManRediuce任务讲行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。
9）ZooKeeper：它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。

标签：总结,HDFS,存储,第一周,数据库,MapReduce,Hadoop,数据
From： https://www.cnblogs.com/ZRGUGUGU818/p/17537079.html

一周总结第二次
这周完成了大部分pta固定题目集的试题，看了许多哔哩哔哩上关于Java的课程，黑马程序员的居多，现在感觉对于Java已经算是入门，也使用Java尝试了许多pta固定题目集上的前面一部分较为简单的试题。对于c++也学到许多在学校没有学习或没有深入了解到的东西，例如堆栈的vector以及队列的queue......
git 总结
gitstash视频链接gitstash：工作区已经修改，但是需要在不提交的情况下切换到其他分支，此时可以使用gitstash来存储当前工作区的修改。gitstashpush//将工作区的修改放入一个栈中，此时工作区就变干净了可以push多个修改到栈中可以简写成gitstashgitstashpop//弹......
第一周
1.总结namespace的类型及功能namespace是Linux系统的底层概念，在内核层实现。容器只是运行在宿主机上的一种特殊的进程，那么多个容器之间使用的就还是同一个宿主机的操作系统内核。容器的本质就是一种特殊的进程，通过namespace实现容器运行空间的相互隔离后，再通过LinuxCgroups......
<折半搜索>题型总结
折半搜索meetinthemiddle算法（又叫splitandmerge算法）顾名思义这种算法就是同时从两个点往中间搜索，直到碰头为止而使等式两边未知数个数相等或尽量均匀分布是用meetinthemiddle算法解决等式问题的常见方法SP4580ABCDEF题目描述给定一个集合S（元素个数100以内）求......
MySQL常用知识点总结
MySQL常用知识点总结参考地址：(https://maifile.cn/est/a3206887806899/pdf)【一】知识点总结【二】多表查询【三】常用函数【四】Excel数据清洗......
深度剖析之由浅入深揭秘JavaScript类型转换(最全总结篇)
前言系列首发于公众号『前端进阶圈』，若不想错过更多精彩内容，请“星标”一下，敬请关注公众号最新消息。深度剖析之由浅入深揭秘JavaScript类型转换(最全总结篇)值类型转换将值从一种类型转换为另一种类型通常称为类型转换，分为隐式强制类型转换和显示强制类型转换。两者的区别在于......
每日总结
7月6日：今天更为深入的学习了大道至简的第四章，让我感觉到了不一样的java，沟通，人与人之间的沟通是必不可少的，我们要合力完成某个项目便需要沟通。开发项目也需要与客户沟通，知道在各个阶段都想干什么，能干什么，而不是一味的埋头。......
2023.7.7 集训总结
2023.7.7集训总结期末考试已经结束，文化课的同学们也已经放假，竞赛也停课集训了一段时间。现对这段时间的集训进行总结。CFCF的两场Div1或多或少地体现了我的缺陷：深入思考太慢，分析太久，在OI赛制可能还足够，但是在只有两个小时的CF赛制中却出现了问题，简单的T1要50分钟才能AC，导致T2......
7.7总结
今天上午起床之后刷了会抖音，并没有像昨天说的那样，去检查idea连接的数据库是否正确，看了会java视频，中午随便吃了点，下午做了会pta，学了一小会前端的知识，然后晚上八点参加部门所拉赞助的活动，参加完就刷视频，然后睡觉......
20230706巴蜀暑期集训测试总结
T1我是个大聪明！一眼矩乘。构造转移矩阵构造了3.5h！最开始以为只有\(15\times15\)，直接手打。写到一半发现不一定四种颜色都有，是\(52\times52\)的，这时候狗被脑子吃了，还想手打，于是就打到了3h。差不多打了一大半，脑子终于把狗还回来了，意识到就算打完也不可能调得出来，就开始另辟蹊径，......

Hadoop是什么？

相关文章

赞助商

阅读排行