首页 > 其他分享 >hadoop 生态环境

hadoop 生态环境

时间:2023-06-01 13:12:11浏览次数:39  
标签:存储 fsedits hadoop Client DataNode 生态环境 NameNode Secondary

 

HDFS角色及概念

hadoop体系中数据存储管理的基础,是一个高度蓉错的系统,用于在低成本的通用硬件上运行

 

 

角色和概念

  — Client

  — NameNode

  — Secondarynode 

  — Datanode 

NameNode

  — Master节点,管理HDFS的(名称空间和数据块映射信息)就是fsimag,(配置副本策略)和Els差不多,处理所有客户端请求

Secondary NameNode (简称小秘)

  — 定期合并fsimage和fsedits补丁,推送给NameNode

  —  紧急情况下,可辅助恢复NameNode

但Secondary NameNode并非NameNode的热备

DataNode

  — 数据存储节点,存储实际数据

  — 汇报存储信息给NameNode

Client (客户端,执行顺序)

  —  切分文件 (1)

  —  访问HdFS

  —  与NameNode交互,获取文件位置信息(2)

  — 与DataNode交互,读取和写入数据 (3)

 Block(存储块)

  —  每块128MB大小 (4)

  —  每块可以多个副本

 

如图:

Client 切分文件  >  NameNode  >  DataNode 每块存储128MB > 记录本 fsimgs(名称空间数据块映射信息)Secondary NameNode 定期合并fsimage和fsedits补丁推送给NameNode

Client 切分文件如3块数据给NameNode,NameNode,返回DataNode地址给Client存储,NameNode记录在fsimage上

取数据直接告诉Client取对应路径的数据

Client 更新数据修改在fsedits上Secondary NameNode 定期合并fsimage和fsedits补丁推送给NameNode

标签:存储,fsedits,hadoop,Client,DataNode,生态环境,NameNode,Secondary
From: https://www.cnblogs.com/tom-service/p/17448625.html

相关文章

  • 【博学谷学习记录】超强总结,用心分享 | Hadoop
    【博学谷IT技术支持】一、介绍概念Apache™Hadoop®项目为可靠、可扩展的分布式计算开发开源软件。允许简单的编程模型在大量计算机集群上对大型数据集群进行分布式处理。项目包含以下模块:Common:支持其他hadoop模块的通用实用程序HDFS(分布式文件系统):可提供对应用程......
  • hadoop-2.9.2集群安装
     curlhttp://10.99.67.4:8000/apache-hive-2.3.9-bin.tar.gz-oapache-hive-2.3.9-bin.tar.gzcurlhttp://10.99.67.4:8000/apache-zookeeper-3.5.7-bin.tar.gz-oapache-zookeeper-3.5.7-bin.tar.gzcurlhttp://10.99.67.4:8000/flink-1.14.5-bin-scala_2.12.tgz-ofli......
  • Windows 配置 Hadoop and Spark
    一JDK环境配置由于项目用的JDK17,所以单独给Hadoop配了JDK11,建议直接配置JAVA_HOME环境变量为JDK11,因为后面Spark需要用到JAVA_HOME下载JDK11链接:https://www.oracle.com/java/technologies/javase/jdk11-archive-downloads.html目前Hadoop和Spark兼容JDK11和JDK8单独修改Had......
  • Hadoop之YARN详解
    YARN的由来从Hadoop2开始,官方把资源管理单独剥离出来,主要是为了考虑后期作为一个公共的资源管理平台,任何满足规则的计算引擎都可以在它上面执行。所以YARN可以实现HADOOP集群的资源共享,不仅仅可以跑MapRedcue,还可以跑Spark、Flink。YARN架构分析咱们之前部署Hadoop集群的时候也......
  • Hadoop - hadoop介绍
    Hadoop是什么Hadoop的发展历史Hadoop的优势       Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决海量数据的存储和海量数据的分析计算问题。广义上讲,Hadoop通常是指一个更广泛的概念—— Hadoop生态圈。 Hadoop的发展历......
  • Hadoop之MapReduce性能优化
    现在大家已经掌握了MapReduce程序的开发步骤,注意了,针对MapReduce的案例我们并没有讲太多,主要是因为在实际工作中真正需要我们去写MapReduce代码的场景已经是凤毛麟角了,因为后面我们会学习一个大数据框架Hive,Hive支持SQL,这个Hive底层会把SQL转化为MapReduce执行,不需要我们写一行代......
  • hadoop序列化相关问题
    什么时候需要使用序列化?需要在不同服务器传递内存数据时,用序列化。序列化后的所有属性需要再反序列化,那么有先后顺序反序列化吗?有的,比如序列化的属性有abc则反序列化的属性必须是cabc数据切片一般为数据块的倍数,为什么?一般一个数据切片对应启动一个maptask任务,可以保证......
  • Hadoop全分布部署
    安装包下载(百度网盘)链接:https://pan.baidu.com/s/1XrnbpNNqcG20QG_hL4RJoQ?pwd=aec9提取码:aec9基础配置(所有节点)关闭防火墙,selinux安全子系统#关闭防火墙,设置开机自动关闭[root@localhost~]#systemctldisable--nowfirewalldRemoved/etc/systemd/system/multi-user......
  • centos7上Hadoop2.7.2完全分布式部署
    1.规划node1         node2           node3datanode       datanode         datanodenamenode     resourcemanager  secondarynamenodenodemanager   nodemanager     no......
  • centos7.9上hadoop-2.7.2伪分布式部署
    1.安装jdk1.1在Oracle官网上现在jdk1.8,然后上传到Linux服务器中1.2 安装jdk rpm-ivhjdk-8u371-linux-x64.rpm2创建部署用户hadoopuseradd-d/hadoophadoopecho123|passwd--stdinhadoop3修改/etc/hosts4使用Hadoop用户上传hadoop安装包hadoop-2.7......