首页 > 其他分享 >深入理解HDFS 错误恢复

深入理解HDFS 错误恢复

时间:2024-10-09 14:00:08浏览次数:7  
标签:HDFS 副本 错误 写入 管道 深入 租约 DataNode 客户端

我们从动态的角度来看 hdfs

先从场景出发,我们知道 hdfs 的写文件的流程是这样的:

数据以 pipeline 的方式写入 hdfs ,然后对于读取操作,客户端选择其中一个保存块副本的 DataNode 来读数据.考虑这样两个场景:

  • hbase rs 在写 wal log 的时候.如果一个 rs 挂了.那么这个 rs 会转移并且通过读取 wal log 来恢复之前的状态.如果这个rs 挂的时候 ,写 wal log 的 pipeline 没有完成,那么必然这份 wal log 数据在不同的dn 上是存在差异的. 那么 hdfs 是如何保证 rs 转移后能够恢复到正确的状态?
  • 流计算写入hdfs ,如果中间 datanode 挂了.hdfs 是如何保证这个流计算程序不抛出错误,并持续运行下去的?

这里就引出了 hdfs 一个非常重要的特性就是 hdfs 写的错误恢复.对于 hdfs 的写的错误恢复.进而就需要了解三个重要概念: lease recovery, block recovery, and pipeline recovery . hdfs 的写的容错性就是由这三个概念保证的. 这三个概念也是相互关联,相互包含的.一切跟写文件有关:

  • 租约恢复 在客户端可以写入 HDFS 文件之前,它必须获得租约,这本质上是一个锁。如果客户端希望继续写,则必须在约定的时间段内续租。如果租约没有明确更新或持有它的客户端死亡了,那么它就会过期。发生这种情况时,HDFS 将代表客户端关闭文件并释放租约,以便其他客户端可以写入该文件。这个过程称为租约恢复。
  • 块恢复 如果正在写入的文件的最后一个块没有传递到管道中的所有 DataNode,那么当发生租约恢复时,写入不同节点的数据量可能会不同。在租约恢复导致文件关闭之前,需要一个过程来确保最后一个块的所有副本具有相同的长度.此过程称为块恢复。块恢复仅在租约恢复过程中触发,并且在租约恢复中仅在文件的最后一个块不处于 COMPLETE 状态时才触发块恢复。
  • 管道恢复 在写入管道操作期间,管道中的某些 DataNode 可能会失败。发生这种情况时,底层的写操作不能只是失败。相反,HDFS 将尝试从错误中恢复,以允许管道继续运行并且客户端继续写入文件。从管道错误中恢复的机制称为管道恢复。

我们知道写文件,就是写 block . 上面这些错误恢复,最终的目的无非是要保证所有客户端的文件的所有 block 都能够完整的写入所有的 datanode . 所以,还得从更细致的角度去看 block,了解 block 的一些概念及语义

首先,把 datanode 中的 block 称之为 replica(副本) .用以区分 namenode 中的 block(块). 对于 replica ,它有如下几种状态,也对应了 replica 写入到 datanode 的一个动态过程:

  • FINALIZED 当副本处于此状态时,对副本的写入完成并且副本中的数据被“冻结”(长度已确定),除非重新打开副本以进行追加。具有相同 generation stamp 的块的所有最终副本(称为 GS)应该具有相同的数据。最终副本的 GS 可能会因恢复发生而增加。
  • RBW (Replica Being Written) 这是正在写入的任何副本的状态,无论文件是为写入而创建的,还是为追加而重新打开的。 RBW 副本始终打开文件的一个块。数据仍在往副本里面写,尚未最终确定。 RBW 副本的数据(不一定是所有)对读取客户端可见。如果发生任何故障,将尝试将数据保存在 RBW 副本中。
  • RWR (Replica Waiting to be Recovered) 如果一个 DataNode 死掉并重新启动,它的所有 RBW 副本都将更改为 RWR 状态。 RWR 副本要么过时并因此被丢弃,要么将参与租约恢复中的块恢复。
  • RUR (Replica Under Recovery) 非 TEMPORARY 副本在参与租约恢复时将更改为 RUR 状态。
  • TEMPORARY 临时副本,用于块复制,由 replication monitor 或cluster balancer 来发起。它类似于 RBW 副本,只是它的数据对所有读取器客户端都是不可见的。如果块复制失败,将删除一个 TEMPORARY 副本。

以上就是 datanode 的 副本状态,接着对比一下 namenode 的块状态:

  • UNDER_CONSTRUCTION 这是写入时的状态。 UNDER_CONSTRUCTION 块是打开文件的最后一个块;它的长度和 GS 仍然是可变的,并且它的数据(不一定是全部)对读者是可见的。 NameNode 中的 UNDER_CONSTRUCTION 块会跟踪管道中的合法 RBW 及 RWR 副本的位置。
  • UNDER_RECOVERY 如果一个文件的最后一个块在相应客户端的租约到期时处于 UNDER_CONSTRUCTION 状态,那么就会开始块恢复,同时它将变为 UNDER_RECOVERY 状态。
  • COMMITTED COMMITTED 意味着一个块的数据和 GS 不再可变(除非它被重新打开用以追加, 并且此时上报上来的有相同 GS/长度的 FINALIZED 副本的 DataNode 数要少于设定的最小副本数。为了服务读取请求,COMMITTED 块必须跟踪 RBW 副本的位置、GS 及其 FINALIZED 副本的长度。当客户端要求 NameNode 向文件添加新的块或关闭文件时,UNDER_CONSTRUCTION 块将更改为 COMMITTED。如果最后一个或倒数第二个块处于 COMMITTED 状态,则无法关闭文件,客户端必须进行重试。
  • COMPLETE 当 NameNode 检测到 匹配 GS/长度要求的 FINALIZED 副本数达到最小副本数的要求时,COMMITTED 块更改为 COMPLETE。只有当文件的所有块都变为 COMPLETE 时才能关闭文件。一个块可能会被强制进入 COMPLETE 状态,即使它没有最小的复制副本数 . 例如,当客户端请求一个新块时,前一个块尚未完成这种情况.

DataNode 将副本的状态保存到磁盘,但 NameNode 不会将块状态保存到磁盘。当 NameNode 重新启动时,它将先前所有打开的文件的最后一个块的状态更改为 UNDER_CONSTRUCTION 状态,并将所有其他块的状态更改为 COMPLETE。

副本和块的简化状态转换如两图所示:

image

image

在上面副本/块状态转换过程中,有一个重要的判断依据,那就是 Generation Stamp(GS)

GS 是由 NameNode 持久维护的每个块的单调递增的 8 字节数。块和副本的 GS 主要的作用是以下:

  • 检测块的陈旧副本:即,当副本 GS 比块 GS 旧时,例如,在副本中以某种方式跳过 append 操作时,可能会发生这种情况。
  • 检测 DataNode 上的过期副本,比如 datanode 死了很长时间后重新加入集群。

当发生以下任何一种情况时,需要生成一个新的 GS:

  • 创建了一个新文件
  • 客户端打开现有文件以进行 append 或 truncate
  • 客户端在向 DataNode(s) 写入数据时遇到错误并请求新的 GS
  • NameNode 启动文件的租约恢复

接下来,我们来看租约恢复,块恢复是由租约恢复触发,并且包含在租约恢复过程中的.

租约恢复过程是在 NameNode 上触发的.触发的场景有如下两个:当监控线程监控到租约 hard limit 到期时,或者一个客户端在 soft limit到期时尝试从另一个客户端接管租约时。租约恢复会检查由同一客户端写入的每个打开文件,如果文件的最后一个块不处于 COMPLETE 状态,则对文件执行块恢复,然后关闭文件。

下面是给定文件 f 的租约恢复过程。当客户端异常死亡时,这个客户端写入而打开的每个文件也会发生如下过程:

  1. 得到 包含 f 的最后一个块的 DataNode。
  2. 将其中一个 DataNode 指定为主 DataNode p。
  3. p 从 NameNode 获取新的 GS 标记。
  4. p 从每个 DataNode 获取这个块的信息。
  5. p 计算得到这个块的最小长度。
  6. p 更新具有合法 GS 标记的 DataNode 的块, 让其更新为新的 GS 标记和最小块的长度。
  7. p 通知 NameNode 更新的结果。
  8. NameNode 更新 BlockInfo。
  9. NameNode 删除 f 的租约(其他写入者现在可以获得写入 f 的租约)。
  10. NameNode 向 edit log 提交更改。

其中步骤 3 到 7 是恢复过程中的块恢复部分。

有时,需要在硬限制到期之前强制恢复文件的租约。为此,可以使用命令强制恢复租约:

hdfs debug recoverLease [-path] [-retries ]

由内到外,接下来,继续看外层的管道恢复 (pipeline recovery)

首先看写入管道(write pipeline)的流程

当 HDFS 客户端写入文件时,数据将作为顺序块写入。为了写入或构造一个块,HDFS 将块分成 packets(实际上不是网络数据包,而是消息;packets 实际是指带着这些消息的类),并将它们传递到写入管道中的每个 DataNode,如下图:

image

写流水线分为三个阶段:

  1. 管道启动。客户端沿管道发送 Write_Block 请求,最后一个 DataNode 发送回确认。收到确认后,管道准备好写入。
  2. 数据流。数据通过管道以数据包的形式发送。客户端缓存数据,直到一个packet 数据包被填满,然后将数据包发送到管道。如果客户端调用 hflush(),那么即使一个数据包没有满,它仍然会被发送到管道并且必须得收到前一个数据包 hflush() 的确认。
  3. 关闭(finalize 副本并关闭管道)。客户端等待直到所有数据包都被确认,然后发送关闭请求。管道中的所有 DataNode 将相应的副本更改为 FINALIZED 状态并报告回 NameNode。如果配置的最小副本数量的 DataNode 报告了其相应副本的 FINALIZED 状态,则 NameNode 然后将块的状态更改为 COMPLETE。

当管道中的一个或多个 DataNode 在写入块的三个阶段中的任何一个中遇到错误时,则会启动管道恢复。

从管道启动失败中恢复

  1. 如果管道是为一个新块创建的,客户端会放弃该块并向 NameNode 请求一个新块和一个新的 DataNode 列表。管道为新块重新初始化。
  2. 如果创建管道 append 块操作,则客户端使用剩余的 DataNode 重建管道并增加块的 GS 标记。

从数据流失败中恢复

  1. 当管道中的 DataNode 检测到错误(例如,checksum 错误或写入磁盘失败)时,该 DataNode 通过关闭所有 TCP/IP 连接将自己从管道中取出。
  2. 接着客户端检测到故障,它会停止向管道发送数据,并使用剩余的 DataNode 重建新的管道。接着,该块的所有副本都被更新到一个新的 GS。
  3. 客户端使用这个新的 GS 继续发送数据包。如果发送的数据已经被某些 DataNode 接收了,他们会忽略该数据包并往管道下游传递.

从关闭失败中恢复

当客户端在关闭状态下检测到故障时,它会使用剩余的 DataNode 重建管道。如果副本尚未最终确定,则每个 DataNode 都会增加副本的 GS 并最终确定副本。

当一个 DataNode 坏时,它会将自己从管道中移除。在管道恢复过程中,客户端可能需要使用剩余的 DataNode 重建新的管道。 (它可能会也可能不会用新的 DataNode 替换坏的 DataNode,这取决于下文中配置的 DataNode 替换策略。)replication 监视器将负责复制块以满足配置的副本数。

失败时 datanode 的替换策略

在使用剩余的 DataNode 设置恢复管道时,关于是否添加额外的 DataNode 以替换坏的 DataNode 有四种可配置策略:

  1. DISABLE:禁用 DataNode 替换并在dn 上抛出错误。
  2. NEVER:当管道发生故障时,永远不替换 DataNode(通常不建议)。
  3. DEFAULT:根据以下条件替换:
    a. 假设 r 为配置的副本数。
    b. 设 n 为现已有副本数据的节点的数量。
    c. 仅当 r >= 3 且满足下面任一条件才添加新的 DataNode
    • flour(r/2) >= n
    • r > n 并且块是被 hflushed/appended
  4. ALWAYS:当现有的 DataNode 失败时,总是添加一个新的 DataNode。如果无法替换 DataNode,则会失败。

替换策略的开关为 dfs.client.block.write.replace-datanode-on-failure.enable ,值为 false 时,禁用所有策略.

值为 true,打开替换策略,此时通过配置 dfs.client.block.write.replace-datanode-on-failure.policy 来指定策略,默认策略为 default

使用 default 或 always 时,如果管道中只有一个 DataNode 成功,则错误恢复永远不会成功,客户端将无法执行写入直到超时。这种情况可以配置如下属性来解决此问题:dfs.client.block.write.replace-datanode-on-failure.best-effort
默认为false。使用默认设置,客户端将继续尝试,直到满足指定的策略。当该属性设置为 true 时,即使不能满足指定的策略(例如管道中只有一个成功的 DataNode,小于策略要求),仍然允许客户端继续来写。

租约恢复、块恢复和管道恢复对于 HDFS 容错至关重要。它们共同保证了即使存在网络和节点故障的情况下,写入到 HDFS 中是持久且一致的,

标签:HDFS,副本,错误,写入,管道,深入,租约,DataNode,客户端
From: https://www.cnblogs.com/hdpdriver/p/18454086

相关文章

  • 专栏简介:Java 17 深入剖析:从入门到精通
    Java17深入剖析:从入门到精通专栏简介在信息技术迅猛发展的今天,Java语言凭借其跨平台的特性、强大的生态系统以及丰富的社区支持,依然稳居开发者的首选。随着Java17的发布,Java语言引入了众多创新特性和改进,使得它在现代软件开发中更具优势。本专栏将为读者提供一个深......
  • 一文通Java 锁:锁机制及锁常见问题的深入解析(Java 并发编程(偏向、轻/重量级、读写、可
    在并发编程中,锁机制是保障线程安全的核心工具。锁的类型、使用场景、以及锁引发的种种问题都是开发者在设计高并发系统时必须应对的挑战。本篇博客将围绕锁的类型、应用场景、以及常见的锁问题展开详细讨论,帮助大家深入理解Java锁机制的优缺点与其适用场景。文章目录......
  • 深入理解Python的生成器与迭代器:编写高效的代码
    深入理解Python的生成器与迭代器:编写高效的代码在Python编程中,生成器(Generators)和迭代器(Iterators)是编写高效代码的重要工具。它们帮助我们节省内存、优化性能,尤其在处理大数据时表现尤为出色。这篇博客将深入探讨生成器与迭代器的工作原理、如何使用它们编写高效代码,并通......
  • Cannon-ES中RaycastVehicle的深入探索与实践
    本文目录前言1、RaycastVehicle1.1概念1.2核心特性1.3应用场景2、前置代码准备3、RaycastVehicle的使用3.1代码3.2效果4、监听施加力4.1代码4.2效果前言在三维物理引擎的世界里,Cannon-ES以其轻量级、高效和易于集成的特点,赢得了众多开发者的青睐。而Rayca......
  • 网站与数据库连接错误怎么办
    当遇到网站与数据库连接错误时,可以按照以下步骤进行排查和解决:检查错误日志查看应用程序的日志文件,了解具体的错误信息。数据库自身的日志也非常重要,可以帮助定位问题。检查数据库连接配置确认数据库连接字符串中的所有参数是否正确,包括:主机地址:确保数据库服务器的I......
  • asp网站提示数据库连接错误怎么办
    ASP网站出现数据库连接错误时,可以按照以下步骤进行排查和解决:检查连接字符串:确认数据库连接字符串是否正确。包括服务器地址、数据库名称、用户名和密码等信息。验证数据库服务状态:确保数据库服务正在运行,并且可以通过网络访问到。可以尝试通过其他工具(如SQLServerMan......
  • 帝国网站连接数据库错误怎么解决
    解决“帝国网站连接数据库错误”的问题,通常需要从以下几个方面进行排查和处理:检查数据库连接参数确认数据库服务器地址、端口、用户名、密码以及数据库名称是否正确。检查这些参数在网站配置文件中的设置是否与实际一致。确认数据库服务状态使用ping命令或数据库管理......
  • 网址显示证书错误?网站证书错误打不开
    遇到网站证书错误导致无法打开的情况,可以尝试以下几个步骤来解决问题:清除浏览器缓存和Cookies:清除浏览器中的缓存数据和Cookies,有时候这些数据可能已经过期或损坏。更换浏览器尝试:尝试使用不同的浏览器访问该网站,以排除当前浏览器的问题。检查系统时间:确认计算机......
  • 网站首页出现致命错误怎么办
    当网站首页出现致命错误时,可以按照以下步骤进行排查和解决:确认错误类型:查看错误信息或日志,了解错误的具体类型。确认错误是否与特定的操作或用户请求相关。检查服务器状态:检查服务器是否正常运行,查看服务器负载、内存、磁盘空间等资源使用情况。检查网络连接是否正常......
  • 数据库连接错误是什么原因
    数据库连接错误可能由多种原因引起,常见的原因包括:网络问题:客户端与数据库服务器之间的网络不通畅或中断。地址或端口错误:数据库服务器的地址(IP或域名)或端口号配置不正确。认证失败:使用的用户名或密码错误。权限问题:用户没有足够的权限来访问数据库或特定的数据库对象。数据......