首页 > 其他分享 >HDFS文件块

HDFS文件块

时间:2023-02-17 12:22:35浏览次数:29  
标签:HDFS 存储 文件 寻址 NameNode 数据

知识点补充

HDFS优缺点:

  优点

  (1)高容错性。节点存放的副本比较多。

  (2)适合处理大数据。 GB、TB、PB级别的数据都可以处理。

  (3)可以构建在廉价的机器上,通过多副本机制来提高可靠性。

  缺点

  (1)不是低延时数据的处理,如毫秒级的数据操作(mysql)

  (2)无法高效地对大量小文件进行存储。

    存储大量小文件时会占用NameNode大量的内存来存放文件目录信息和块信息,但是NameNode的内存有限。

    小文件存储的寻址时间会超出他的读取时间,这违反了HDFS的设计。

  (3)不支持并发写入和文件的随机修改。

HDFS的组成(架构)

  NameNode

  (1)管理HDFS的名称空间(2)配置副本策略(3)管理数据块(Block)的映射信息(4)处理客户端的读写操作

  ,SecondaryNameNode,

  DataNode

  (1)存储实际数据块(2)执行数据块的读写操作

  Client

  (1)将用户上传的文件切分为若干个block,然后上传(2)与NameNode进行交互,获取文件的位置信息。

 HDFS文件块Block大小(重点)

  (1)HDFS文件在物理上是以文件块的形式存储的,每个文件块都有大小限制,且文件没有沾满单个文件块不会占用多余的空间。块的大小可由参数dfs.blocksize来进行配置。

  (2)一般文件的寻址时间即为寻找目标块的时间。

  (3)文件的寻址时间为文件传输时间的1%,为最佳状态。

  (4)普通磁盘的传输速率为100MB/s(128MB/s).

 

  HDFS的块设置太小会增加文件的寻址时间,太大磁盘传数据的时间会明显大于块寻址的时间,程序处理数据会非常慢。

  HDFS块大小设置主要取决于磁盘传输速率。

 

    

 

标签:HDFS,存储,文件,寻址,NameNode,数据
From: https://www.cnblogs.com/20203923rensaihang/p/17129660.html

相关文章

  • rsync排除目录或文件
    1.要排除特定文件,请将文件的相对路径传递给--exclude选项。在下面的例子中,文件src_directory/file.txt不会被传输:  rsync-a--exclude'file.txt'src_directory/d......
  • adb日志文件
    一、获取日志文件一般情况下,我们在做app测试时,其实并不需要经常使用adb去抓取我们的日志,通常情况下都是有预期结果和实际结果做对比的。真正需要adb抓取日志的时候,是......
  • Rsync实现Linux-Windows文件同步
     Window客户端同步到Linux服务器的文件夹:从linux服务器的文件夹里面的内容同步到(复制,覆盖和删除等操作)windows客户端主机.环境:CentOS6.8x64Linux服务器:19......
  • Serverless Streaming:毫秒级流式大文件处理探秘
    摘要:本文将以图片处理的场景作为例子详细描述当前的问题以及华为云FunctionGraph函数工作流在面对该问题时采取的一系列实践。文章作者|旧浪:华为云Serverless研发专家、平......
  • Vue中.env|.env.development|.env.production文件说明【转载】
    0.介绍模式是VueCLI项目中一个重要的概念,默认情况下,一个VueCLI项目有三种模式:developemt模式用于vue-cli-serviceservetest模式用于vue-cli-servicetest:unitproduc......
  • 简单批处理实现代码文件备份
    简单批处理实现代码文件备份@echoon::设置7z的命令行程序路径setzip7="C:\ProgramFiles\7-Zip\7z.exe"::设置压缩包保存路径setSave="N:\路径\"::保存文件的路径......
  • Java 文件上传
    一:配置springBoot上传文件限制spring:servlet:multipart:max-file-size:100MB#单个文件大小max-request-size:1024MB#总文件大小二:代码i......
  • 在 vuex 中建立一个 permission.js 文件用于合并静态和动态的路由规则
    结果会获取完整的用户的路由规则//新建一个vuex模块来专门处理权限相关操作import{constantRoutes,asyncRoutes}from"@/router";exportdefault{namespace......
  • hdfs操作——hdfs的shell命令和hdfs的JavaAPI操作
    hdfs解决hadoop海量数据的存储。shell命令(所有hadoopfs可由hdfsdfs代替)(1)在hdfs上创建目录hadoopfs-mkdir目录名(2)本地文件的上传hadoopfs-copyFromLoc......
  • python zipfile 排除指定文件类型后的文件夹压缩
    """压缩指定文件夹排除指定格式的文件"""importzipfilefrompathlibimportPathpath='./aaa.zip'#压缩文件路径path=Path(path)xya_file=Path('./te......