首页 > 其他分享 >学习心得 HDFS读数据过程

学习心得 HDFS读数据过程

时间:2022-10-29 16:44:52浏览次数:90  
标签:HDFS 读取数据 学习心得 读数据 数据 节点 客户端

HDFS读数据过程

   第一步:打开文件。用Fliesystem先申明一个对象,然后生成一个子类DistributedFileSystem,这个时候生成FS的实例对象,其实是分布式文件系统HDFS的实例对象。我们要读取数据,都是要创建一个输入流,输入流类型是FSDataInputStream,这是客户端要编写时创建的。

第二步:获取数据块信息。FSDataInputStream会和名称节点沟通,沟通的原因是为了获取数据块具体保存在哪些数据节点上面去,通过ClientProtocal.getBlockLocations()直接找下一个数据块,名称节点会把包含的文件开始一部分的数据块信息位置信息返回。

第三步:读取请求。客户端获得了输入流FSDataInputStream就可以调用read()开始读数据,名称节点把数据位置返回来,并进行排序,返回客户端。客户端拿到位置信息列表,他在输入流实行read(),会选择最近的数据节点进行连接,然后进行读数据。

第四步:读取数据。数据要从数据节点读到客户端,读完以后FSDataInputStream关闭与这个数据节点的连接。

第五步:获取数据块信息。就是再去让这个输入流通过ClientProtocal.getBlockLocations()询问名称节点下一个数据被存在哪里,名称节点会把信息给返回来。

第六步:读取数据。又是利用read()与其他数据节点连接起来读取数据。数据读取完,关闭和其他数据节点的连接。依次循环往复读取,直到完成所有数据快的读取。

第七步:关闭文件。

标签:HDFS,读取数据,学习心得,读数据,数据,节点,客户端
From: https://www.cnblogs.com/mtyiii/p/16839025.html

相关文章

  • 分布式文件系统HDFS
      ......
  • Hadoop - hdfs源码体系结构
    ......
  • HDFS基础学习
    HDFS简介HDFS即HadoopDistributedFileSystem,是一个分布式文件系统,用于存储海量数据。一个HDFS集群由一个NameNode和多个DataNode组成。HDFS特性主从架构分块存储......
  • hdfs hadoop
      $HADOOP_HOMEecho $HADOOP_HOME 配置文件在这个目录:$HADOOP_HOME/etc/hadoop 1、文件coer-site.xml  2、文件hdfs-site.xml(重点核心文件)   ......
  • HDFS相关问题处理
    机房搬迁后datanode启动失败,报错如下:2022-10-2110:28:40,551INFOorg.apache.hadoop.hdfs.server.common.Storage:Lockon/HDATA/1/dfs/local/in_use.lockacquired......
  • 初体验!老男孩linux运维班学习心得分享
    以下内容来自学员分享:在来老男孩之前,心里有忐忑,有不安,还有激动和质疑,虽然很多人都说年龄大不适合转行学技术,但想想自己肩上的重担,还是来到了这里。28岁,有房有车,同样有房贷有......
  • hdfs测试(文件上传,内容读取,文件删除)
    工具:idea2021配置:hadoop2.6.0项目:Maven项目 首先编辑pom.xml(Maven项目的核心文件)文件,添加如下内容,导入依赖(所需jar包)(注意hadoop版本号)<?xmlversion="1.0"encod......
  • 我的4年学习心得:AI 应该是一个整体!
     Datawhale干货 作者:太子长琴,算法工程师,Datawhale成员本文涉及到的思考从我2017年接触人工智能就开始萌芽了,由于个人经历关系,我一开始是从认知科学的角度开始自己的工程......
  • 【极客时间】大数据概述及HDFS介绍
    ......
  • Chap4 循环结构 第八小组 学习心得
    循环结构的相应知识    循环结构是指在程序中需要反复执行某个功能而设置的一种程序结构。它由循环体中的条件,判断继续执行某个功能还是退出循环,是编程中必不可少......