首页 > 其他分享 >大数据技术-hadoop

大数据技术-hadoop

时间:2023-02-23 19:01:00浏览次数:33  
标签:HDFS 读取 hadoop Hadoop 技术 MapReduce DataNode 数据

hadoop是什么

Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。
主要解决,海量数据的存储和海量数据的分析计算问题。
广义上来说,Hadoop 通常是指一个更广泛的概念 —— Hadoop 生态圈。

Hadoop 1.x 和 hadoop 2.x 的区别

在 Hadoop 1.x 时代,Hadoop 中的 MapReduce 同时处理业务逻辑运算和资源调度,耦合性较大。
在 Hadoop 2.x 时代,增加了 Yarn。Yarn 只负责资源的调度,MapReduce 只负责运算。
image

HDFS

① NameNode(nn): 存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块所在的 DataNode 等。
② DataNode(dn): 在本地文件系统存储文件块数据,以及块数据校验和。
③ Secondary DataNode(2nn): 用来监控 HDFS 状态的辅助后台程序,每隔一段时间获取 HDFS 元数据的快照。

HDFS读文件

image
客户端向NameNode发送读取请求
NameNode返回文件的所有block和这些block所在的DataNodes(包括复制节点)
客户端直接从DataNode中读取数据,如果该DataNode读取失败(DataNode失效或校验码不对),则从复制节点中读取(如果读取的数据就在本机,则直接读取,否则通过网络读取)

Yarn

image

MapReduce

MapReduce 将计算过程分为两个阶段:Map 阶段和 Reduce 阶段。

① Map 阶段并行处理输入的数据。
② Reduce 阶段对 Map 结果进行汇总。

大数据技术生态体系

image

特点

架构

应用场景

标签:HDFS,读取,hadoop,Hadoop,技术,MapReduce,DataNode,数据
From: https://www.cnblogs.com/ermao1993/p/17149090.html

相关文章

  • Asp.NET Core 导出数据到 Excel 文件
    在Asp.NetCore开发中,使用NPOI将数据导出到Excel文件中,并返回给前端。service层代码:///<summary>///将数据导出到excel///</summary>......
  • HBase--分布式列存储NOSQL数据库
        HBase本质上是一个数据模型,可以提供快速随机访问海量结构化数据。利用Hadoop的文件系统(HDFS)提供的容错能力。它是Hadoop的生态系统,使用HBase在HDFS......
  • 数据模拟
    InaccurateNotaccuratenotaccurateAccuracyNotveryaccurateInaccurateNotaccurateatallAccuracyWhydoestheappdayIhavetakenaNapwhenIsitdownto......
  • 你有了解过无服务器架构(Serverless)数据库吗?
    你有了解过无服务器架构(Serverless)数据库吗?什么是Serverless呢?简单理解,Serverless分为 FaaS和BaaS两个部分,其中FaaS指的是函数即服务,BaaS是后端即服务。举个例......
  • Hadoop 系列之 HDFS
    简述本文主要基于Hadoop2.x以上版本,用于记录Hadoop组件HDFS的相关知识点。正文作为Hadoop三大组件之一,HDFS主要用于数据存储,而Hadoop又隶属于分布式架构,这就涉及到多服......
  • webrtc QOS笔记二 音频buffer数据不足生成很多gap的问题
    webrtcQOS笔记二音频buffer数据不足生成很多gap的问题目录webrtcQOS笔记二音频buffer数据不足生成很多gap的问题记录个iusse.插入音频数据后,GetAudioInternal进......
  • 一种采用图像识别技术的智能抄表终端
    智能抄表终端可实现远程抄表,代替传统的上门抄表。这是如何实现的呢?这里以拓普索尔TSM-MR为例。智能抄表终端TSM-MR采用最新的人工智能图像识别技术,能识别各类水表数据,辅助......
  • Windows 上 Docker 部署 MongoDb 并构建数据持久化
    拉取镜像老样子先拉取一个镜像。dockerpullmongo:latest运行容器dockerrun-p27017:27017--namemongo-v/d/mongo/data:/data/db-eMONGO_INITDB_ROOT_USERNA......
  • 统计信息_数据来源
    《数字经济及其核心产业统计分类(2021)》数字经济及其核心产业统计分类(2021).docx来源:国家统计局发布时间:2021-06-0316:14数字经济01数字产品制造业、02数字......
  • 数据库概念
    1、数据库(DataBase,DB)是按一定结构组织并长期存储在计算机内的、可共享的大量数据的有机集合。其实就是存放数据的仓库,只不过这些数据存在一定的关联、并按一定的格式存放......