Hadoop

Hadoop

时间：2024-09-18 15:04:23浏览次数：10

1.概念

分布式系统基础架构。主要包括分布式文件系统HDFS（Hadoop Distributed File System）、分布式计算系统Map Reduce和分布式资源管理系统YARN

2.构成

2.1 HDFS

HDFS提供了高可靠性（主要通过多副本来实现）、高扩展性（通过添加机器来达到线性扩展）和高吞吐率的数据存储服务
HDFS的基本原理是将数据文件以指定的块大小拆分成数据块，并将数据块以副本的方式存储到多台机器上
即使某个节点出现故障，该节点上存储的数据块副本丢失，但是在其他节点上还有对应的数据副本
HDFS将数据文件的切分、容错、负载均衡等功能透明化。我们可将HDFS看成一个容量巨大、具有高容错性的磁盘，在使用的时候完全可以当作普通的本地磁盘使用。

2.2 Map Reduce

Map Reduce是一个编程模型，用以进行大数据量的计算
两项核心操作：Map（映射）和Reduce（归纳）
一个Map Reduce作业通常会把输入的数据集切分为若干独立的数据块，由map任务以并行的方式处理它们，对map的输出先进行排序，然后再把结果输入reduce任务，由reduce任务来完成最终的统一处理。通常Map Reduce作业的输入和输出都是使用Hadoop分布式文件系统（HDFS）进行存储，换句话说，就是Map Reduce框架处理数据的输入源和输出目的地的大部分场景都是存储在HDFS上的。

2.3 YARN

ARN的基本思想是将Hadoop1.x中Map Reduce架构中的Job Tracker的资源管理和作业调度监控功能进行分离，解决了在Hadoop1.x中只能运行Map Reduce框架的限制。

3.生态

Hive Pig Sqoop Flume Oozie Mahout

4.HDFS

4.1 体系结构

4.1.1 数据块

最基本的存储单位是数据块（Block），默认的块大小是64MB（有些发布版本为128MB）
HDFS中的文件是分成以Block Size为大小的数据块存储的。如果一个文件小于一个数据块的大小，并不占用整个数据块存储空间，文件大小是多大就占用多少存储空间。

4.1.2 元数据节点

Name Node的职责是管理文件系统的命名空间，它将所有的文件和文件夹的元数据保存在一个文件系统树中，如一个文件包括哪些数据块，这些数据块分布在哪些数据节点上，这些信息都要存储下来。

标签：HDFS,存储,Map,Reduce,Hadoop,数据
From： https://www.cnblogs.com/lwx11111/p/18418520

Hadoop（十四）MapReduce概述
一、定义MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上二、优缺点优点描述易于编程它简单的......
Hadoop（十三）DataNode
一、DataNode工作机制1、一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳2、DataNode启动后向NameNode注册，通过后，周期性（6小时）的向NameNode上报所有的块信息3、心跳是每3秒一次，心跳返回结果带有......
Hadoop（十二）NameNode 和 SecondaryNameNode
一、NN和2NN工作机制1、NameNode中的元数据存储在哪里？存储在NameNode节点的磁盘中会导致效率过低，因为经常需要进行随机访问和响应客户请求；存储在内存中，一旦元数据丢失，整个集群就无法工作，也不合适。因此产生了在磁盘中备份元数据的FsImage。引入Edits文件（只进行追加操作，效率很......
Hadoop（十一）HDFS 读写数据流程
HDFS读写数据流程一、写数据流程1、客户端通过DistributedFileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在2、NameNode返回是否可以上传3、客户端请求第一个Block上传到哪几个DataNode服务器上4、NameNode返回3个DataNode节点，分别为dn1......
计算机毕业设计Python深度学习水文预测水文可视化水文爬虫洪水自然灾害预测水文数
多数据源水文数据获取技术与应用分析摘要随着信息技术的不断发展，水文数据获取和分析成为了现代水文学研究的重要内容。多数据源水文数据获取技术与应用分析系统为我们提供了一种新的水文数据处理和分析方式。该系统利用爬虫技术获取长江水文网的数据，采用 Python ......
计算机毕业设计Flink+Hadoop广告推荐系统广告预测广告数据分析可视化广告爬虫大数
《Flink+Hadoop广告推荐系统》开题报告一、项目背景与意义随着互联网技术的飞速发展和数据量的爆炸性增长，广告推荐系统已成为互联网企业提升用户体验和增加收益的重要手段。传统的广告推荐系统往往面临计算效率低、实时性差、推荐精度不足等问题，难以满足当前复杂多变的业务需......
【背时咯】简单记录一下大数据技术的核心组件，包括Hadoop、Spark、Kafka等，并说明它们在
大数据技术的核心组件包括Hadoop、Spark、Kafka等，它们在大数据生态系统中扮演着不可或缺的角色。以下是对这些核心组件的详细解释及它们在大数据生态系统中的作用：Hadoop核心组件：Hadoop分布式文件系统(HDFS)：提供高可靠性的数据存储能力，能够将大规模的数据集分布式存储在多......
【计算机毕设-大数据方向】基于Hadoop的在线教育平台数据分析可视化系统的设计与实现
......
hadoop中小文件问题的解决方案
鱼弦：公众号：红尘灯塔，CSDN内容合伙人、CSDN新星导师、51CTO(Top红人+专家博主) 、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）Hadoop小文件问题解决方案Hadoop小文件问题是指在Hadoop中存储大量小文件时，会降低Hadoop的性能和效率。这是......
hadoop+java基于大数据的电影推荐系统 (源码+文档+调试+可视化大屏)
收藏关注不迷路！！......