首页 > 其他分享 >磁盘降级分析及应对措施

磁盘降级分析及应对措施

时间:2024-12-18 16:01:07浏览次数:11  
标签:kernel 降级 0000 17 应对 1c 磁盘 00.0

一、背景概述

        磁盘降级是指磁盘在运行过程中出现故障或性能下降的现象,通常表现为磁盘的响应速度变慢、读写失败或其他硬件问题。磁盘降级可能是由于硬件故障、设备老化、配置问题、IO过载等多种因素导致。尤其是在使用 RAID 或其他存储阵列的环境中,磁盘降级可能不会立即导致数据丢失,但会影响系统性能,甚至造成部分服务不可用。

        在本次分析中,我们根据从日志中获取的磁盘降级事件,详细分析了发生磁盘降级时的症状、原因及应对措施。

二、磁盘降级日志解析

以下是从日志中提取的一段关于磁盘降级的关键日志信息:

Apr 18 17:30:53 paas kernel: [16390907.378466] megaraid_sas 0000:1c:00.0: Failed from megasas_issue_blocked_cmd 1084 DCMD Timed out
Apr 18 17:31:56 paas kernel: [16390907.379233] megaraid_sas 0000:1c:00.0: MFI IO is timed out, initiating OCR
Apr 18 17:31:56 paas kernel: [16390907.379239] megaraid_sas 0000:1c:00.0: resetting fusion adapter scsi0.
Apr 18 17:31:56 paas kernel: [16390921.722254] megaraid_sas 0000:1c:00.0: Waiting for FW to come to ready state
Apr 18 17:31:56 paas kernel: [16390967.793648] megaraid_sas 0000:1c:00.0: FW now in Ready state
Apr 18 17:31:56 paas kernel: [16390967.794466] megaraid_sas 0000:1c:00.0: Current firmware supports maximum commands: 4077  LDIO threshold: 0
Apr 18 17:31:56 paas kernel: [16390967.794470] megaraid_sas 0000:1c:00.0: FW supports sync cache: Yes
Apr 18 17:31:56 paas kernel: [16390969.553619] megaraid_sas 0000:1c:00.0: firmware type: Extended VD(240 VD)firmware
Apr 18 17:31:56 paas kernel: [16390969.553623] megaraid_sas 0000:1c:00.0: controller type: MR(2048MB)
Apr 18 17:31:56 paas kernel: [16390969.553624] megaraid_sas 0000:1c:00.0: Online Controller Reset(OCR): Enabled
Apr 18 17:31:56 paas kernel: [16390969.553626] megaraid_sas 0000:1c:00.0: Secure JBOD support: Yes
Apr 18 17:31:56 paas kernel: [16390969.553627] megaraid_sas 0000:1c:00.0: NVMe passthru support: No
Apr 18 17:31:56 paas kernel: [16390969.553629] megaraid_sas 0000:1c:00.0: FW provided TM TaskAbort/Reset timeout: 0 secs/0 secs
Apr 18 17:31:56 paas kernel: [16390969.688237] megaraid_sas 0000:1c:00.0: Interrupts are enabled and controller is OPERATIONAL for scsi:0
Apr 18 17:31:56 paas kernel: [16390969.688282] megaraid_sas 0000:1c:00.0: Reset successful for scsi0.
Apr 18 17:31:56 paas kernel: [16390969.697540] megaraid_sas 0000:1c:00.0: scanning for scsi

分析:

  1. 超时错误 (DCMD Timed out) 日志中第一行提示 "Failed from megasas_issue_blocked_cmd 1084 DCMD Timed out",这表明某个磁盘命令超时。磁盘命令超时是磁盘降级的一种常见表现,通常意味着磁盘无法及时响应来自系统的读写请求。超时错误会导致磁盘性能下降,甚至无法继续提供服务。

  2. 磁盘 IO 超时,OCR 触发 "MFI IO is timed out, initiating OCR" 表示磁盘 I/O 操作超时,触发了 OCR(Online Controller Reset,在线控制器重置)机制。OCR 是 RAID 控制器的一项重要功能,当磁盘出现问题时,控制器会尝试通过重置操作恢复设备状态,确保磁盘继续参与阵列。

  3. 控制器重置 日志中的 "resetting fusion adapter scsi0" 和后续的 "Reset successful for scsi0" 表示磁盘控制器(或 RAID 卡)通过重置恢复了工作状态。在磁盘降级的情况下,控制器重置可以暂时缓解问题,但若硬件故障严重,重置可能无法完全恢复磁盘的正常状态。

  4. 固件恢复和扫描 通过 "Waiting for FW to come to ready state" 和 "FW now in Ready state" 等日志,表示控制器固件完成了恢复过程,并且重新进入了准备状态。系统继续扫描磁盘并恢复正常操作。这一过程可能导致系统性能下降,甚至出现短时间的不可用状态,影响业务的持续运行。

三、磁盘降级的影响

磁盘降级可能会对业务产生以下影响:

  1. 性能下降: 磁盘故障或性能下降会导致磁盘 I/O 操作延迟,影响数据库查询、文件读取等操作。长时间的磁盘性能下降会导致系统响应缓慢,甚至发生服务不可用的情况。

  2. 数据同步延迟: 在 RAID 阵列中,如果磁盘降级,数据同步可能会变得缓慢。尽管 RAID 具备冗余机制,但降级时需要时间进行数据重建,这可能导致数据同步的延迟,增加了数据丢失的风险。

  3. 业务中断: 虽然 RAID 控制器会尝试重置并恢复服务,但在一些极端情况下,磁盘降级可能会导致完全的业务中断,尤其是在进行大规模数据操作时。例如,数据库在磁盘 I/O 超时期间无法进行正常读写操作,导致查询失败或事务回滚。

四、应对措施
  1. 增强监控: 定期监控磁盘的健康状态,使用工具如 smartctliostat 等,实时检查磁盘的读写性能、温度、坏道等指标,及时发现并处理潜在的磁盘降级问题。

  2. 使用 RAID 6 或 RAID 10: 通过使用更高冗余的 RAID 配置,如 RAID 6 或 RAID 10,能够有效降低单个磁盘故障对系统性能和可用性的影响。这些 RAID 配置可以容忍多块磁盘故障而不丢失数据。

  3. 定期备份和灾难恢复演练: 为了应对磁盘降级引发的潜在数据丢失,定期进行数据备份,并确保灾难恢复计划的有效性。定期演练灾难恢复流程,确保在发生故障时能够迅速恢复业务。

  4. 更换硬盘或升级存储设备: 在磁盘降级发生时,及时更换出现问题的磁盘或升级存储设备。长时间运行的硬盘可能会因为磨损和老化出现性能下降,因此定期更换硬盘是避免磁盘降级的有效手段。

标签:kernel,降级,0000,17,应对,1c,磁盘,00.0
From: https://blog.csdn.net/2301_77776546/article/details/144540765

相关文章

  • VMware虚拟机win10操作系统磁盘扩容操作步骤
    1.关闭虚拟机中操作系统,编辑此虚拟机,选择硬盘->扩展->填写扩展容量保存之后还未生效,需要开启虚拟机进入操作系统2.此电脑右键,管理,打开计算机管理,选择磁盘管理,选择要扩展的盘,这里我的是C盘右键,3.扩展卷中添加刚才扩展的磁盘空间。扩展如不想在当前磁盘扩展,也可以选择新......
  • 服务器raid5磁盘阵列硬盘报警离线损坏了两块怎么恢复数据?
    这台服务器是由四块2.5寸希捷1TBSAS盘组的RAID5阵列,硬盘型号是ST91000640SS,有两块盘损坏亮黄灯报警离线,其中0号盘是fail状态,三号盘是offline状态。经过检测,两块故障盘在数据恢复设备里可以直接读取,但都有大量坏块,我们先通过设备尽可能完整的把镜像做出来,然后跟其他两块好盘的镜像......
  • Oracle 应对 System 与 Sysaux 表空间不足难题 --转发:https://mp.weixin.qq.com/s/
    一、审计aud$表导致system用满1.进行相关常用检查的SQL--查看Oracle表空间大小SELECT a.tablespace_name "tablespace",total / (1024 * 1024 * 1024) "total(G)",free / (1024 * 1024 * 1024) "shengyu (G)",(total - free) / (1024 * 1024 * 1024) ......
  • 云计算学习之磁盘管理案例、进程管理、交换路由器配置
    一.磁盘管理相关案例1.1磁盘重点回顾``bash重点:机械磁盘固态磁盘接口:SATA#笔记本台式机服务器SAS#企业服务器标配PCI-E#缓存的业务场景转速:SAS300G600G900G15K用户可以访问的服务器RAID级别01510几块盘存储大小冗余(安全)性能使用场景磁......
  • VMware Workstation 整理磁盘碎片失败: 指定的虚拟磁盘需要进行修复。
    问题:VMwareWorkstation 整理磁盘碎片报错: 整理磁盘碎片失败:指定的虚拟磁盘需要进行修复。 解决办法:(1)找到vmware的安装目录(可以直接用everything搜索vmware-vdiskmanager查看目录),在目录框下执行cmd命令(C:\Windows\System32\cmd.exe)运行注:如果没有在安装目录会提示‘......
  • 磁盘的结构
    磁盘的结构‍​​‍一、磁盘、磁道、扇区的概念​​‍二、在磁盘中读/写数据的过程​​‍三、盘面、柱面的概念理解:与柱面相关的是磁道,所有盘面相对位置相同的磁道组成一个柱面由两个盘面组成的一个盘片,也对应会有上下两个磁头(仿佛夹着这个盘面)​​‍四、磁盘的......
  • 磁盘调度算法
    磁盘调度算法‍​​‍一、一次磁盘读/写操作需要的时间​​寻道时间TS延迟时间TR传输时间Tt补充理解(上下的1.2.3.分别对应):现在的磁盘移动一个磁道大约需要0.2ms,磁臂启动时间约为2ms(磁盘的物理移动时间耗费较大,后续算法应尽量减少磁盘的物理移动)1/r就是转......
  • 磁盘的管理
    磁盘的管理‍​​‍一、磁盘初始化此处联系第4.-2节文件系统的全局结构(布局)(一)低级格式化(物理格式化)划分扇区​​(二)分区分区​​(三)逻辑格式化创建文件系统,初始化存储空间管理需要的数据结构等​​‍二、引导块​​​​理解:就是原本整个自举程序直接装在ROM......
  • 在使用 Terabyte Image for Windows (TBI) 恢复系统镜像时,相较于 Ghost(诺顿磁盘克隆工
    在使用TerabyteImageforWindows(TBI)恢复系统镜像时,相较于Ghost(诺顿磁盘克隆工具),恢复速度的差异主要受以下几个因素影响:压缩算法与镜像格式:TerabyteImage 使用了更加高效的压缩算法和镜像格式(例如 .tbi 格式),这可以减少数据量,从而提高恢复速度。相比之下,Ghost 在......
  • 从 MySQL 获取数据,是从磁盘读取的吗?(buffer pool)
    从MySQL获取数据,是从磁盘读取的吗?(BufferPool)在MySQL中,数据是否从磁盘读取取决于数据是否已经被加载到内存中。MySQL使用InnoDB存储引擎中的BufferPool来优化磁盘I/O,减少从磁盘读取数据的次数,提高查询性能。BufferPool的工作原理缓存机制:BufferPool是Inno......