分布式文件系统HDFS

标签：HDFS 存储 DataNode NameNode 分布式文件系统数据日志

HDFS简介
- HDFS（Hadoop Distributed File System）是一个分布式文件系统，是Hadoop生态系统的核心组件之一。它被设计用来在廉价的硬件设备上存储大规模的数据，并且能够提供高容错性和高吞吐量的数据访问。
- 例如，在一个大型的互联网公司，每天会产生海量的用户行为数据，如浏览记录、购买记录等。这些数据的规模可能达到PB级别的大小，HDFS可以很好地存储和管理这些数据。
HDFS的架构
- NameNode
  - NameNode是HDFS的主节点，它管理着文件系统的命名空间（namespace）。命名空间包括了文件和目录的层次结构，就像一本书的目录一样，记录了每个文件的位置信息。
  - 例如，当用户想要访问一个文件时，首先会向NameNode询问该文件的位置，NameNode会返回文件块（block）存储在哪些DataNode上的信息。NameNode还负责处理文件系统的命名空间操作，如创建、删除和重命名文件或目录等操作。
- DataNode
  - DataNode是HDFS的从节点，它们负责实际的数据存储。数据在HDFS中是以数据块（block）的形式存储的，默认的数据块大小是128MB（这个大小可以配置）。
  - 例如，一个1GB的文件会被分成8个数据块（假设数据块大小为128MB），这些数据块会被存储在不同的DataNode上。DataNode会定期向NameNode发送心跳（heartbeat）消息，报告自己的状态和存储的数据块信息，这样NameNode就能知道哪些DataNode是存活的，哪些数据块是可用的。
- Secondary NameNode
  - Secondary NameNode并不是NameNode的备份，它主要的功能是定期合并NameNode的编辑日志（edit log）和镜像文件（fsimage）。
  - 例如，NameNode在运行过程中会不断地记录文件系统的更改操作，这些操作记录在编辑日志中。镜像文件则是文件系统的一个快照。随着时间的推移，编辑日志会变得很大，这会影响NameNode的性能。Secondary NameNode会定期将编辑日志和镜像文件合并成一个新的镜像文件，这样可以减少编辑日志的大小，提高NameNode的性能。
HDFS的工作原理
- 文件写入过程
  - 当客户端（client）想要向HDFS写入一个文件时，首先会向NameNode请求上传文件。NameNode会根据DataNode的状态（如可用空间、网络带宽等）选择一些DataNode来存储文件块。
  - 例如，假设要写入一个384MB的文件，在默认数据块大小为128MB的情况下，文件会被分成3个数据块。NameNode可能会选择DataNode1、DataNode2和DataNode3来存储这3个数据块。客户端会先将第一个数据块发送给DataNode1，DataNode1接收并存储这个数据块后，会将数据块复制一份发送给DataNode2（这是HDFS的数据冗余策略，默认是每个数据块有3个副本）。然后客户端再发送第二个数据块，以此类推，直到文件的所有数据块都被存储并复制完成。
- 文件读取过程
  - 当客户端想要读取一个文件时，首先会向NameNode询问文件的位置信息。NameNode会返回存储文件块的DataNode列表。
  - 例如，客户端想要读取之前写入的384MB文件，NameNode会返回存储该文件3个数据块的DataNode列表。客户端会选择距离自己较近或者网络带宽较好的DataNode来读取数据块，比如先从DataNode1读取第一个数据块，从DataNode2读取第二个数据块等，最后将这些数据块组合成完整的文件内容。
HDFS的优势
- 高容错性
  - 由于数据块有多个副本，即使某个DataNode出现故障，数据仍然可以从其他副本所在的DataNode获取。例如，在一个包含10个DataNode的集群中，存储的数据块有3个副本，即使有3个DataNode同时出现故障，数据仍然可以正常访问。
- 可扩展性
  - HDFS可以很容易地通过添加新的DataNode来扩展存储容量。当数据量增加时，只需要添加更多的硬件设备并将其配置为DataNode，就可以增加整个文件系统的存储容量。
- 适合大数据处理
  - 它能够高效地处理大规模的数据，为数据密集型应用（如大数据分析、数据挖掘等）提供了良好的存储基础。例如，在进行大规模的数据分析时，Hadoop的Map - Reduce等计算框架可以直接从HDFS中读取数据进行计算。
HDFS的应用场景
- 数据仓库
  - 用于存储企业的数据仓库数据，如销售数据、客户数据等。这些数据可以用于企业的决策分析，如市场趋势分析、客户行为分析等。
- 日志存储和分析
  - 存储服务器日志、应用程序日志等大量的日志数据。这些日志数据可以用于故障排查、性能分析等。例如，在一个大型网站中，每天会产生大量的访问日志，HDFS可以存储这些日志，并通过相关的日志分析工具进行分析，了解用户的访问行为和网站的性能情况。

标签：HDFS,存储,DataNode,NameNode,分布式文件系统,数据,日志
From： https://www.cnblogs.com/java-note/p/18612511

相关文章

赞助商

阅读排行