Hadoop学习笔记01

时间：2023-01-12 20:56:35浏览次数：58

标签：01 Hadoop 笔记 MapReduce 服务器 Boss 数据 CPU

一、大数据概念

大数据

大数据(Big Data)：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

主要解决问题

海量数据的采集
存储和分析计算问题

特点

大量(Volume)
高速(Velocity)：处理效率
多样(Variety)：结构化(数据库、文本)/非结构化(音频、视频)
低价值密度(Value)：数据总量越大，价值密度越低。有用数据提纯

二、Hadoop入门

概念

1. Hadoop是什么

Hadoop是一个由Apache基金会所开发的分布式系统基础架构

2. Hadoop的优势

高可靠性：Hadoop底层维护多个数据副本
高扩展性：在集群间分配任务数据，动态扩展和减少节点
高效性：Hadoop是并行工作的，以加快任务处理速度
高容错性：能够自动将失败的任务重新分配

3. Hadoop(3.x)的组成

Common（辅助工具）
HDFS（数据存储）
Yarn（资源调度）
MapReduce（计算）

4. HDFS架构概述

NameNode(nn)：存储文件的元数据，如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限)，以及每个文件的块列表和块所在的DataNode等
DataNode(dn)：在本地文件系统存储文件块数据，以及块数据的校验和
Secondary NameNode(2nn)：每个一段时间对NameNode元数据备份，如果元数据跨了不至于数据都没法用了

5. YARN架构概述

ResourceManager(RM)：整个集群资源（内存、CPU等）的Boss
NodeManager(NM)：单个节点服务器的Boss
ApplicationMaster(AM)：单个任务运行的Boss
Container：容器，相当一台独立的服务器，里面封装了任务运行所需要的资源，如内存、CPU、磁盘、网络等
关系结构

说明

客户端可以有多个
集群上可以运行多个Application
每个NodeManager上可以有多个Container
每个Container最少分配1个CPU，1G内存

6. MapReduce架构概述

MapReduce将计算过程分为两个阶段

Map阶段并行处理输入数据
Reduce阶段对Map结果进行汇总

将执行任务分配到各个结点服务器（如检索某个数据），这是Map过程，找到的结果汇总给总服务器，这是reduce过程

7. HDFS、YARN、MapReduce三者关系

最近想着学习一下大数据方面的内容，以上均是B站尚硅谷的大数据Hadoop课程，仅当学习记录
课程连接：尚硅谷大数据Hadoop教程（Hadoop 3.x安装搭建到集群调优）

标签：01,Hadoop,笔记,MapReduce,服务器,Boss,数据,CPU
From： https://www.cnblogs.com/Rodrigo/p/17047884.html

《Vue.js 设计与实现》读书笔记（1-3章）
第1章、权衡的艺术命令式or声明式命令式：关注过程声明式：关注结果声明式直接声明想要的结果，框架帮用户封装好命令式的代码，所以在封装的过程中要做一些其他的事情来（生......
莫比乌斯反演学习笔记
莫比乌斯函数定义\[\mu(n)=\begin{cases}1&n=1\\0&n\text{含有平方因子}\\(-1)^k&\text{其中}k\text{为}n\text{本质不同的质因子个数}\end{cases}......
树上分块解决限制距离的树上 DP 问题（[NOI2014] 购票）
[NOI2014]购票大家好，我喜欢暴力数据结构，所以我用分块过了此题。转移方程很简单：\[f_u=\min_{d_u-d_v\leql_u}{(d_u-d_v)\timesp_u+q_u+f_v}\]\[f_u=d_u\timesp_u+q......
学习笔记——Mybatis动态SQL
2023-01-12一、Mybatis动态SQL即将SQL动态化同时Mybatis的动态SQL支持OFNL表达式，OGNL（ObjectGraphNavigationLanguage）对象图导航语言。1、先搭建环境（1）创建一个“mav......
Redis 6 学习笔记1 ——NoSQL数据库介绍，Redis常用数据类型
NoSQL数据库介绍（了解）技术的分类1、解决功能性的问题：Java、Jsp、RDBMS、Tomcat、HTML、Linux、JDBC、SVN,2、进一步地，解决系统功能扩展性的问题：Struts、Spring、SpringMVC......
0112总结
四道题都比较套路，AK了。T1[模拟赛20230112]密接枚举区间的左端点，再枚举众数出现的次数，那么满足条件的右端点就是一段区间。令\(pos1_i\)为第一个出现\(i\)次的数的......
ASP.NET Core学习笔记3
ASP.NETCore学习笔记3 结论：n AmbiguousHTTPmethodforaction，翻译后是“不明确的HTTP操作方法”。n 有可能是没写HTTP方法，如[HttpGet]、......
Math学习笔记
最近几天全在做OI数论题，写个blog记一下套路。例如要求\(\operatornameg(n)=\sum_{d|n}d\cdot\varphi(\frac{n}{d})\)尽管你会一个叫做\(\text{LCMSUM}\)(可跳转)......
【题解】P4899 [IOI2018] werewolf 狼人
そうやってただ日が暮れるまで語り掛ける本当の言葉题意给定一个有向图和若干询问，每次询问是否存在一条满足条件的路径：端点分别为\(u,v\)前面一段不经过\([1,L......
2019, Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Locali
AbstractGradient-weightedClassActivationMapping,usesthegradientsofanytargetconceptflowingintothefinalconvolutionallayertoprodeceacoarselo......