大数据技术-hadoop

时间：2023-02-23 19:01:00浏览次数：33

标签：HDFS 读取 hadoop Hadoop 技术 MapReduce DataNode 数据

hadoop是什么

Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。
主要解决，海量数据的存储和海量数据的分析计算问题。
广义上来说，Hadoop 通常是指一个更广泛的概念 —— Hadoop 生态圈。

Hadoop 1.x 和 hadoop 2.x 的区别

在 Hadoop 1.x 时代，Hadoop 中的 MapReduce 同时处理业务逻辑运算和资源调度，耦合性较大。
在 Hadoop 2.x 时代，增加了 Yarn。Yarn 只负责资源的调度，MapReduce 只负责运算。

HDFS

① NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块所在的 DataNode 等。
② DataNode（dn）: 在本地文件系统存储文件块数据，以及块数据校验和。
③ Secondary DataNode（2nn）：用来监控 HDFS 状态的辅助后台程序，每隔一段时间获取 HDFS 元数据的快照。

HDFS读文件

客户端向NameNode发送读取请求
NameNode返回文件的所有block和这些block所在的DataNodes（包括复制节点）
客户端直接从DataNode中读取数据，如果该DataNode读取失败（DataNode失效或校验码不对），则从复制节点中读取（如果读取的数据就在本机，则直接读取，否则通过网络读取）

Yarn

MapReduce

MapReduce 将计算过程分为两个阶段：Map 阶段和 Reduce 阶段。

① Map 阶段并行处理输入的数据。
② Reduce 阶段对 Map 结果进行汇总。

大数据技术生态体系

特点

架构

应用场景

标签：HDFS,读取,hadoop,Hadoop,技术,MapReduce,DataNode,数据
From： https://www.cnblogs.com/ermao1993/p/17149090.html

Asp.NET Core 导出数据到 Excel 文件
在Asp.NetCore开发中，使用NPOI将数据导出到Excel文件中，并返回给前端。service层代码：///<summary>///将数据导出到excel///</summary>......
HBase--分布式列存储NOSQL数据库
HBase本质上是一个数据模型，可以提供快速随机访问海量结构化数据。利用Hadoop的文件系统(HDFS)提供的容错能力。它是Hadoop的生态系统，使用HBase在HDFS......
数据模拟
InaccurateNotaccuratenotaccurateAccuracyNotveryaccurateInaccurateNotaccurateatallAccuracyWhydoestheappdayIhavetakenaNapwhenIsitdownto......
你有了解过无服务器架构（Serverless）数据库吗？
你有了解过无服务器架构（Serverless）数据库吗？什么是Serverless呢？简单理解，Serverless分为 FaaS和BaaS两个部分，其中FaaS指的是函数即服务，BaaS是后端即服务。举个例......
Hadoop 系列之 HDFS
简述本文主要基于Hadoop2.x以上版本，用于记录Hadoop组件HDFS的相关知识点。正文作为Hadoop三大组件之一，HDFS主要用于数据存储，而Hadoop又隶属于分布式架构，这就涉及到多服......
webrtc QOS笔记二音频buffer数据不足生成很多gap的问题
webrtcQOS笔记二音频buffer数据不足生成很多gap的问题目录webrtcQOS笔记二音频buffer数据不足生成很多gap的问题记录个iusse.插入音频数据后,GetAudioInternal进......
一种采用图像识别技术的智能抄表终端
智能抄表终端可实现远程抄表，代替传统的上门抄表。这是如何实现的呢？这里以拓普索尔TSM-MR为例。智能抄表终端TSM-MR采用最新的人工智能图像识别技术，能识别各类水表数据，辅助......
Windows 上 Docker 部署 MongoDb 并构建数据持久化
拉取镜像老样子先拉取一个镜像。dockerpullmongo:latest运行容器dockerrun-p27017:27017--namemongo-v/d/mongo/data:/data/db-eMONGO_INITDB_ROOT_USERNA......
统计信息_数据来源
《数字经济及其核心产业统计分类（2021）》数字经济及其核心产业统计分类（2021）.docx来源：国家统计局发布时间：2021-06-0316:14数字经济01数字产品制造业、02数字......
数据库概念
1、数据库（DataBase，DB)是按一定结构组织并长期存储在计算机内的、可共享的大量数据的有机集合。其实就是存放数据的仓库，只不过这些数据存在一定的关联、并按一定的格式存放......