Ceph Pacific 版本磁盘预测模块

时间：2023-04-23 17:25:55浏览次数：37

标签：ceph Pacific Ceph mgr device 磁盘 config 设备

磁盘预测模块利用 Ceph 设备运行状况检查来收集磁盘运行状况指标，并使用内部预测器模块生成磁盘故障预测并返回到 Ceph。它不需要任何外部服务器进行数据分析和输出结果。其内部预测器的准确率约为70%。

1. 启用

运行以下命令以在 Ceph 环境中启用diskprediction_local模块：

ceph mgr module enable diskprediction_local

要启用本地预测变量，请执行以下操作：

ceph config set mgr device_failure_prediction_mode local

要禁用预测，请执行以下操作：

ceph config set mgr device_failure_prediction_mode none

diskprediction_local需要至少六个设备运行状况指标数据集来预测设备的使用寿命。并且，仅当启用了运行状况监视时，才会收集这些运行状况指标。

运行以下命令以检索给定设备的预期寿命。

ceph device predict-life-expectancy <device id>

2. 配置

默认情况下，该模块每天执行预测。您可以使用以下命令调整此间隔：

ceph config set mgr mgr/diskprediction_local/predict_interval <interval-in-seconds>

~# ceph config get mgr mgr/diskprediction_local/predict_interval
86400 # 默认1天

3. 调试

如果要调试磁盘预测模块映射到 Ceph 日志记录级别，请使用以下命令。

[mgr]

debug mgr = 20

将日志记录设置为管理器的调试后，模块将打印出带有前缀 mgr[diskprediction] 的日志记录消息，以便于过滤。

4. 启用设备监控

Ceph 还可以监控与您的设备关联的运行状况指标。例如，SATA 硬盘实现一种称为 SMART 的标准，该标准提供有关设备使用情况和运行状况的各种内部指标，例如开机小时数、电源周期数或不可恢复的读取错误。其他设备类型（如 SAS 和 NVMe）实现了一组类似的指标（通过略有不同的标准）。所有这些都可以由 Ceph 通过 smartctl 工具收集。

您可以使用以下方法启用或禁用运行状况监控：

ceph device monitoring on

或者：

ceph device monitoring off

4.1 指标抓取

如果启用了监控，将定期自动抓取指标。该间隔可以配置为：

ceph config set mgr mgr/devicehealth/scrape_frequency <seconds>

默认设置是每 24 小时抓取一次。

您可以使用以下方法手动触发所有设备的抓取：

ceph device scrape-health-metrics

可以使用以下方法抓取单个设备：

ceph device scrape-health-metrics <device-id>

或者可以使用以下方法抓取单个守护程序的设备：

ceph device scrape-daemon-health-metrics <who>

可以使用以下命令检索设备存储的运行状况指标（可选择特定时间戳）：

ceph device get-health-metrics <devid> [sample-timestamp]

4.2 故障预测

Ceph 可以根据收集的健康指标预测预期寿命和设备故障。有2种模式：

none：禁用设备故障预测。
local：使用来自 Ceph-MGR 守护程序的预训练预测模型

预测模式可以配置为：

ceph config set mgr device_failure_prediction_mode <mode>

预测通常在后台定期运行，因此可能需要一些时间才能填充预期寿命值。您可以在以下输出中查看所有设备的预期寿命：

ceph device ls

您还可以使用以下方法查询特定设备的元数据：

ceph device info <devid>

您可以使用以下方法显式强制预测设备的预期寿命：

ceph device predict-life-expectancy <devid>

如果您没有使用 Ceph 的内部设备故障预测，但有一些关于设备故障的外部信息源，则可以通过以下方式通知 Ceph 设备的预期寿命：

ceph device set-life-expectancy <devid> <from> [<to>]

预期寿命表示为时间间隔，因此不确定性可以用宽间隔的形式表示。间隔结束也可以不指定。

4.3 健康警报

mgr/devicehealth/warn_threshold 控制在生成运行状况警告之前，预期设备故障必须多久发生。

~# ceph config get mgr mgr/devicehealth/warn_threshold
7257600 # 默认84天

可以通过以下方式检查所有设备的预期寿命，并生成任何适当的运行状况警报：

ceph device check-health

4.4 自动故障隔离

如果启用了 mgr/devicehealth/self_heal 选项（默认情况下），则对于预计很快会发生故障的设备，模块将通过将设备标记为“out”来自动将数据从它们中迁移出去。

mgr/devicehealth/mark_out_threshold 控制在自动将 osd 标记为“out”之前，预期设备故障必须多久发生。

默认：

~# ceph config get mgr mgr/devicehealth/self_heal
true
~# ceph config get mgr mgr/devicehealth/mark_out_threshold
2419200 # 默认28天

禁用自动隔离：

ceph config set mgr mgr/devicehealth/self_heal false

标签：ceph,Pacific,Ceph,mgr,device,磁盘,config,设备
From： https://www.cnblogs.com/varden/p/17347121.html

Ceph Pacific 各版本镜像说明
16.2.11容器镜像root@ubuntu-20-04-lts:~#dockerimagesREPOSITORY TAG IMAGEID CREATED SIZEregistry 2 0d153fadf70b 2monthsago ......
磁盘空间占满问题---------------inode资源问题
LINUX实战--inode资源问题原创梦想家-kk 技术梦想家 2023-01-1719:30 发表于福建收录于合集#linux9个 LINUX操作系统 1问题现象目录中创建文件提示本地空间不足，但是通过df-Th发现本地目录下仍有剩余空间 2什么是inode在linux操作系统中，实际每......
python通过psutil获取服务器cpu，内存，磁盘使用率
psutil是一个跨平台的Python库，它允许你获取有关系统进程和系统资源使用情况的信息。它支持Windows、Linux、OSX、FreeBSD、OpenBSD和NetBSD等操作系统，并提供了一些非常有用的功能，如：获取系统CPU使用率、内存使用率、磁盘使用率等信息。获取进程列表、进程状态、进程CPU使用率、......
磁盘存储术语-MBR和GPT及RAID技术
磁盘存储术语总结1、head:磁头磁头数=盘面数2、track:磁道磁道=柱面数3、sector:扇区，512bytes4、cylinder:柱面1柱面=512*sector数/track*head数=512*63*255=7.84MMBR和GPT结构1、MBR:（MasterBootRecord）主引导记录，是传统的分区机制，应用于绝大多数使用BIOS的PC设备，使用32位......
Linux磁盘LVM在线扩容
LVM逻辑卷管理LVM是Linux系统用于对硬盘分区进行管理的一种机制，理论性较强，其创建初衷是为了解决硬盘设备在创建分区后不易修改分区大小的缺陷。尽管对传统的硬盘分区进行强制扩容或缩容从理论上来讲是可行的，但是却可能造成数据的丢失。而LVM技术是在硬盘分区和文件系统之间添加......
【服务器数据恢复】DELL EqualLogic PS系列存储磁盘坏道导致存储不可用的数据恢复案例
服务器数据恢复环境：DELLEqualLogicPS系列某型号存储；16块SAS硬盘组成一组RAID5；划分了4个卷，采用VMFS文件系统，存放虚拟机文件。服务器故障：存储设备中磁盘出现故障导致存储不可用，且存储设备已经过保，用户方联系到我们数据恢复中心要求恢复该存储设备中的数据数据。服务器数据恢......
Linux 系统在线扩容磁盘空间
@目录一、概述二、开始实战操作演示第一步：添加一块10G的硬盘第二步：查看添加的硬盘第三步：对磁盘进行分区第四步：扩充根分区：将新分区扩展根：/一、概述在Linux系统中，目录的大小是动态的，随着其中的文件和子目录的添加、删除和修改而变化。当目录中的文件和子目录越来越多时，可能需要对......
cockpit 扩展 lvm 磁盘失败解决办法
一般正常操作的情况下都不会失败。但是cockpit进行磁盘扩展的时候不会展示进度条，也经常不会锁定操作的卷组。在卷组中重复添加磁盘就会导致添加失败的情况。vgdisplay#先查询卷组名称vgreduce--removemissing卷组名#从卷组中移除无效的的物理卷pvdisplay#查看是哪个物......
WINDOWS无法安装到这个磁盘。选中的磁盘采用GPT分区形式
1.在系统提示无法安装的那一步，按住“shift+f10”，呼出“cmd”命令符2.输入：diskpart，回车进入diskpart3.输入：listdisk，回车显示磁盘信息4.输入：selectdisk0，回车选择第0个磁盘（电脑的硬盘编号是从0开始的）5.输入：clean，回车删除磁盘分区&格式化6.输入：convertmbr，回车将当前磁盘分区设置为M......
阿里云服务器磁盘空间扩容
在ECS控制台上扩容云盘容量后，对应分区和文件系统并未扩容，您还需要进入ECS实例内部继续扩容云盘的分区和文件系统，将扩容部分的容量划分至已有分区及文件系统内，使云盘扩容生效。在服务器中执行：fdisk-ldf-Thlsblkblkid 还需执行命令：typegrowpart||yuminstall-ycloud-util......