首页 > 其他分享 >smartctl 硬盘健康检查

smartctl 硬盘健康检查

时间:2024-08-14 17:26:41浏览次数:8  
标签:smartctl Always dev SMART 磁盘 健康检查 100 硬盘

什么是 Smartctl

Smartctl 是一个命令行工具,用于监测和分析硬盘的状态。它可以读取硬盘的 S.M.A.R.T(Self-Monitoring, Analysis, and Reporting Technology 其中包括健康状态、‌温度、‌错误率)信息,并且可以通过这些信息来预测硬盘故障的可能性。

Smartctl 的作用

Smartctl 可以帮助我们检测出可能出现故障的硬盘,并在故障前采取相应的措施,以减少数据丢失和系统停机的风险。

如何安装 Smartctl

本机已安装smartctl,通过如下命令可确认smartctl所属的软件包:smartmontools

[root@localhost ~]# which smartctl | xargs rpm -qf
smartmontools-7.1-1.ky10.x86_64

#可使用apt-get或者yum安装:
sudo apt-get install smartmontools
sudo yum install smartmontools

基本使用方式:

环境介绍:/dev/sda为 raid 5 磁盘组(含4块磁盘),/dev/sdc为 jbod 直通硬盘。
扫描现有磁盘:

[root@localhost ~]# smartctl --scan    #可以查看所有硬盘的设备路径,‌如/dev/sda。‌
/dev/sda -d scsi # /dev/sda, SCSI device
/dev/sdc -d scsi # /dev/sdc, SCSI device
/dev/bus/0 -d megaraid,0 # /dev/bus/0 [megaraid_disk_00], SCSI device
/dev/bus/0 -d megaraid,1 # /dev/bus/0 [megaraid_disk_01], SCSI device
/dev/bus/0 -d megaraid,2 # /dev/bus/0 [megaraid_disk_02], SCSI device
/dev/bus/0 -d megaraid,3 # /dev/bus/0 [megaraid_disk_03], SCSI device
/dev/bus/0 -d megaraid,4 # /dev/bus/0 [megaraid_disk_04], SCSI device

查看常规磁盘(非raid组内磁盘)健康状态:

sudo smartctl -a /dev/sda    #可以查看特定硬盘的详细SMART信息,‌包括健康状态、‌温度、‌错误率等。‌
sudo smartctl -H /dev/sda    #可以仅查看硬盘的健康状态,‌如果显示“PASSED”或者“OK”则表示硬盘运行正常,‌如果显示“FAILED”或“WARNING”则可能存在问题。‌

如果直接查看 raid 组的smart信息,会提示不支持:

[root@localhost ~]# smartctl -a /dev/sda
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-4.19.90-24.4.v2101.ky10.x86_64] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               AVAGO
……omit
=== START OF READ SMART DATA SECTION ===
Current Drive Temperature:     0 C
Drive Trip Temperature:        0 C

Error Counter logging not supported

Device does not support Self Test logging

查看raid组内磁盘的信息

需要使用scan输出信息中megaraid行的“#”之前的信息,来作为检查命令的参数:

[root@localhost ~]# smartctl -H /dev/bus/0 -d megaraid,3
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-4.19.90-24.4.v2101.ky10.x86_64] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK

或详细信息:

[root@localhost ~]# smartctl -a /dev/bus/0 -d megaraid,0
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-4.19.90-24.4.v2101.ky10.x86_64] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
……omit

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   129   100   054    Pre-fail  Offline      -       104
  3 Spin_Up_Time            0x0007   137   100   024    Pre-fail  Always       -       309 (Average 310)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       40
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   128   100   020    Pre-fail  Offline      -       18
  9 Power_On_Hours          0x0012   096   096   000    Old_age   Always       -       30060
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       40
192 Power-Off_Retract_Count 0x0032   099   099   000    Old_age   Always       -       1287
193 Load_Cycle_Count        0x0012   099   099   000    Old_age   Always       -       1287
194 Temperature_Celsius     0x0002   193   166   000    Old_age   Always       -       31 (Min/Max 20/36)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%        36         -
# 2  Short offline       Completed without error       00%        29         -
# 3  Extended offline    Completed without error       00%        17         -
# 4  Short offline       Completed without error       00%         9         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

SAS磁盘的输出

smartctl 7.1 2019-12-30 r5022 [x86_64-linux-4.19.90-24.4.v2101.ky10.x86_64] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               HGST
……omit

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK

Current Drive Temperature:     32 C
Drive Trip Temperature:        85 C

Manufactured in week 30 of year 2018
Specified cycle count over device lifetime:  50000
Accumulated start-stop cycles:  125
Specified load-unload count over device lifetime:  600000
Accumulated load-unload cycles:  156
Elements in grown defect list: 0

Vendor (Seagate Cache) information
  Blocks sent to initiator = 61858937569280

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:          0       16         0        16       4343       1498.502           0
write:         0       43         0        43      25269        968.836           0
verify:        0        0         0         0      22004          0.685           0

Non-medium error count:        0

SMART Self-test log
Num  Test              Status                 segment  LifeTime  LBA_first_err [SK ASC ASQ]
     Description                              number   (hours)
# 1  Background long   Completed                   -      52                 - [-   -    -]
# 2  Background long   Completed                   -      24                 - [-   -    -]

Long (extended) Self-test duration: 34237 seconds [570.6 minutes]

一些输出信息的解释

TYPE

SMART Attributes Data中,每一项属性都有一个TYPE列,其中:

  • Pre-fail指该属性是指磁盘制造商认为可能会在磁盘出现故障之前发生变化的属性,这些属性的改变可能是磁盘健康状况恶化的早期迹象。
  • Old_age指该属性反映了硬盘随着时间的推移而自然老化的指标。这些属性的变化通常与磁盘的工作小时数、读写操作次数等因素有关,而非直接关联到可能引发故障的具体事件。

UPDATED

Offline的信息,这是某些属性只在磁盘离线时才被更新。
Always就是总是更新。

一些建议的关注指标【来自AI】

读错误率 (Read Error Rate):

  • 意义: 表示读取数据时发生的错误次数。
  • 重要性: 高读错误率可能表明磁盘即将出现故障。

重映射扇区计数 (Reallocated Sector Count):

  • 意义: 表示磁盘上已经被重映射到备用区域的坏扇区数量。
  • 重要性: 高重映射扇区计数可能意味着磁盘上有较多的坏扇区。

当前待映射扇区 (Current Pending Sector Count):

  • 意义: 表示尚未被重映射的潜在坏扇区数量。
  • 重要性: 高当前待映射扇区计数可能预示着磁盘即将出现故障。

离线未映射扇区 (Offline Uncorrectable Sector Count):

  • 意义: 表示在离线自检期间检测到的不可纠正的扇区数量。
  • 重要性: 高离线未映射扇区计数可能表明磁盘存在严重问题。

校验和错误 (Checksum Errors):

  • 意义: 表示在磁盘缓存中检测到的校验和错误数量。
  • 重要性: 高校验和错误可能表明磁盘缓存存在问题。

启动/停止周期计数 (Start/Stop Cycle Count):

  • 意义: 表示磁盘启动和停止的总次数。
  • 重要性: 高启动/停止周期计数可能表明磁盘经常断电,这可能会影响磁盘寿命。

寻道错误率 (Seek Error Rate):

  • 意义: 表示磁头定位时发生的错误次数。
  • 重要性: 高寻道错误率可能表明磁头定位有问题。

气流温度 (Airflow Temperature Celsius):

  • 意义: 表示磁盘内部的温度。
  • 重要性: 高温可能导致磁盘过热,影响磁盘性能和寿命。

电源接通时间 (Power-On Hours):

  • 意义: 表示磁盘自生产以来的累计运行时间。
  • 重要性: 长期运行时间可能表明磁盘接近其预期寿命。

SMART状态 (SMART Status):

  • 意义: 总体上表示磁盘的SMART状态,通常会报告为“PASSED”、“FAILED”或“UNKNOWN”。
  • 重要性: “FAILED”状态表明磁盘可能存在问题。

标签:smartctl,Always,dev,SMART,磁盘,健康检查,100,硬盘
From: https://www.cnblogs.com/feifei6779/p/18359428

相关文章

  • 宝塔硬盘满了,宝塔不能登录,数据库宕机解决办法
    1.命令查看硬盘是否满了:df如果满了,清楚日志,清理磁盘打开SSH软件清理二进制日志:rm-f/www/server/data/ib_*rm-f/www/server/data/mysql-bin*启动数据库servicemysqldstart2.宝塔就可以连接上了,查看一下占满的原因:3)数据库日志占满,关闭日志就行了,需要打开的话重新打开4)......
  • 一块硬盘怎么安装双系统_一块硬盘安装双系统图文教程
    最近有很多网友问题,我一块硬盘能不能安装两个系统,这里可以肯定告诉大家,一块硬盘是可以安装两个系统的,我们可以提前把一块硬盘分多个区,要安装系统的分区建议在60G以上空间保证后期使用不因空间不足折腾,然后分别用小兵U盘把两个系统安装在不同分区实现双系统,下面跟大家介绍一下一......
  • 硬盘检测和维护常用软件,NAS用户必备
    分享我在折腾硬盘时常用到的一些软件。为了方便新手,我按:“买硬盘时”、“硬盘使用中”、“硬盘出现问题时”这几个使用场景做了分类,内容还是很实用的。买硬盘时常用到的软件买硬盘也分两个场景:一、购买新硬盘顺手跑个分是数码玩家的仪式感;二、购买二手硬盘做个全面检测......
  • 硬盘检测工具 Victoria 简单使用教程,Victoria 无响应?无法扫描?
    一、注意事项1.下载完成后不要在压缩包内运行软件直接使用,先解压;2.如果软件无法正常打开,请右键使用管理员模式运行。3.为确保检测结果准确(避免卡深灰块),运行Victoria检测前请确保电脑满足以下要求:(1)关掉所有后台运行的软件,避免造成干扰。(2)关闭电脑自动睡眠/休眠。(3)尽......
  • 解决阿里云CLB的健康检查后业务日志中出现“Connection reset by peer”的错误
    目录起因排查过程问题原因解决方案方案一:更换监听类型(TCP→HTTP/HTTPS)方案二:日志过滤方案三:关闭日志级别info推荐方案起因环境:阿里专有云平台今天发现nginx日志中频繁出现类似Connectionresetbypeer的网络连接错误排查过程起初怀疑是Nginx配置问题,但检查后确认配置正......
  • Kubernetes-POD的健康检查
    目录简介什么是探针LivenessProbe(存活探针)ReadinessProbe(就绪探针)StartupProbe(启动探针)什么时候使用探针?何时使用存活探针(LivenessProbe)何时使用就绪探针(Read inessProbe)何时使用启动探针(StartupProbe)容器探测方法exechttpGettcpSocket容器探测使用livenessProbe使用exec使......
  • Kubernetes-POD的健康检查
    目录简介什么时候使用探针?何时使用存活探针(LivenessProbe)何时使用就绪探针(Read inessProbe)何时使用启动探针(StartupProbe)容器探测方法exechttpGettcpSocket容器探测使用livenessProbe使用exec使用httpGet使用tcpSocketreadinessProbe使用exec使用httpGet使用tcpSocket使用start......
  • 东芝新小黑移动硬盘数据被格式化如何恢复(2024年8月版)
    在数字化时代,数据已成为我们生活和工作中不可或缺的一部分。东芝新小黑移动硬盘,以其便携性和大容量,成为许多用户存储重要数据的首选。然而,当这些宝贵的数据因意外格式化而面临丢失的风险时,我们该如何应对?本文将深入探讨东芝新小黑移动硬盘数据被格式化后的恢复方法,希望帮助用户......
  • 【编程笔记】解决移动硬盘无法访问文件或目录损坏且无法读取
    解决移动硬盘无法访问文件或目录损坏且无法读取只解决:移动硬盘无法访问文件或目录损坏且无法读取问题由于频繁下载数据,多次安装虚拟机导致磁盘无法被系统识别。磁盘本身是好的,只是不能被识别,如果将磁盘格式化,就可以正常使用,这样磁盘内数据就丢失了。怎样才能即保留数据......
  • 致钛固态硬盘误删数据恢复指南(2024版)
    在当今这个数字化时代,数据已经成为我们生活和工作中不可或缺的一部分。无论是珍贵的家庭照片、重要的工作文件,还是学习资料,都存储在各类存储设备中,其中固态硬盘(SSD)因其高速读写能力而备受青睐。然而,误删数据的情况时有发生,尤其是在使用致钛等高性能固态硬盘时,一旦操作不慎,重要......