首页 > 其他分享 >CEPH 运维记录

CEPH 运维记录

时间:2024-10-08 14:49:02浏览次数:16  
标签:2024 运维 记录 09 42 29 CEPH inconsistent 10718

基于l 版本。

1、osd 状态

ceph -s

active:PG 处于活动状态,正在处理读写请求。
clean:PG 中的所有对象都是最新的,所有副本都已同步,没有缺失或未完成的操作。
scrubbing:PG 正在进行数据校验过程,确保所有数据都是一致的。Scrubbing 是定期的检查,以防止数据损坏。
deep:表示正在进行深度校验,这种检查比普通的 scrubbing 更深入,检查每个对象的完整性。
inconsistent:表示 PG 中存在不一致的对象,可能是由于写入冲突、网络分区或其他原因导致数据不同步。
acting: 状态指的是一组正在积极处理请求的 OSD(对象存储设备)。
peering 状态表示 PG(Placement Group)正在与其副本 OSD 建立或重新建立连接以同步数据。

remapped
表示 PG 中的数据已经被重新映射到新的 OSD。这通常发生在 OSD 故障、重新配置或数据迁移时。PG 将在新的 OSD 上存储数据,以确保数据的可用性和冗余性。

backfilling:
表示正在进行数据填充过程,将缺失的数据从其他 OSD 复制到新的 OSD。这个过程确保新映射的 OSD 拥有与其他副本相同的数据,恢复冗余性。

2、常用运维命令

ceph osd tree          # 查看crushmap,可以看到osd装填。
ceph osd metadata osd.23    # 查看osd的源数据信息能看到在哪台主机使用的哪个盘位。
ceph osd perf            # 查看磁盘延迟情况100-200ms需要注意,>200ms可能存在物理故障。

# 查看对应的osd进程
ceph-osd start 92
ceph osd status

3、踢出osd

ceph osd out 87
ceph osd crush remove osd.87
ceph auth del osd.87
ceph osd rm 87

4、加入新的osd到集群中

ceph-disk prepare /dev/sdX --cluster ceph --osd-id 92

--cluster-id    # 这个内容可以替换

5、故障修复

1、OSD_SCRUB_ERRORS 12 scrub errors 数据不一致修复。

找出数据不一致的pg。

~]# ceph health detail
HEALTH_ERR 12 scrub errors; Possible data damage: 10 pgs inconsistent
OSD_SCRUB_ERRORS 12 scrub errors
PG_DAMAGED Possible data damage: 10 pgs inconsistent
    pg 3.5f is active+clean+inconsistent, acting [8,95,42]
    pg 3.ac is active+clean+inconsistent, acting [42,71,12]
    pg 3.b9 is active+clean+inconsistent, acting [103,42,14]
    pg 3.16c is active+clean+inconsistent, acting [42,95,29]
    pg 3.1d9 is active+clean+inconsistent, acting [32,79,42]
    pg 3.397 is active+clean+inconsistent, acting [83,25,42]
    pg 3.448 is active+clean+inconsistent, acting [86,19,42]
    pg 3.472 is active+clean+inconsistent, acting [31,85,42]
    pg 3.51b is active+clean+inconsistent, acting [57,0,42]
    pg 3.614 is active+clean+inconsistent, acting [16,42,6]

找到pg先执行修复命令。

ceph pg dump | grep inconsistent
[root@st-ceph01 ~]# ceph  pg dump | grep inconsistent
dumped all
3.1d9      1229                  0        0         0       0 5207347200 1563     1563   active+clean+inconsistent 2024-09-29 22:20:48.723218   10718'1989810   10718:2399372  [32,79,42]         32  [32,79,42]             32  10718'1988855 2024-09-29 22:20:48.723083   10718'1988855 2024-09-29 22:20:48.723083             0 
3.b9       1160                  0        0         0       0 4947824658 1597     1597   active+clean+inconsistent 2024-09-30 01:34:35.561404   10718'7524742  10718:24576553 [103,42,14]        103 [103,42,14]            103  10718'7524306 2024-09-30 01:34:35.561309   10718'7524306 2024-09-30 01:34:35.561309             0 
3.ac       1163                  0        0         0       0 4928442368 1503     1503   active+clean+inconsistent 2024-09-29 06:24:03.359505   10718'6239021   10718:8596505  [42,71,12]         42  [42,71,12]             42   7267'6228706 2024-09-29 06:24:03.359428    7267'6228706 2024-09-29 06:24:03.359428             0 
3.5f       1209                  0        0         0       0 5190213632 1525     1525   active+clean+inconsistent 2024-09-29 21:39:21.401495  10718'33589929  10718:33959383   [8,95,42]          8   [8,95,42]              8 10712'33582312 2024-09-29 21:39:21.401409  10712'33582312 2024-09-29 21:39:21.401409             0 
3.16c      1253                  0        0         0       0 5325017105 1593     1593   active+clean+inconsistent 2024-09-30 09:00:30.353639   10718'2019828   10718:2453359  [42,95,29]         42  [42,95,29]             42  10718'2019656 2024-09-30 09:00:30.353529   10718'2019656 2024-09-30 09:00:30.353529             0 
3.397      1217                  0        0         0       0 5185437696 1567     1567   active+clean+inconsistent 2024-09-30 05:23:16.057308   10718'1667046   10718:2052636  [83,25,42]         83  [83,25,42]             83  10718'1666171 2024-09-30 05:23:16.057212   10718'1666171 2024-09-30 05:23:16.057212             0 
3.448      1209                  0        0         0       0 5133334016 1558     1558   active+clean+inconsistent 2024-09-30 04:09:53.672050   10718'2971177   10718:3367896  [86,19,42]         86  [86,19,42]             86  10718'2970647 2024-09-30 04:09:53.671988   10718'2970647 2024-09-30 04:09:53.671988             0 
3.472      1166                  0        0         0       0 4987686912 1532     1532   active+clean+inconsistent 2024-09-29 14:48:28.522790   10718'4650728  10718:26130155  [31,85,42]         31  [31,85,42]             31   7267'4647489 2024-09-29 12:30:46.064131    7267'4647489 2024-09-29 12:30:46.064131             0 
3.51b      1194                  0        0         0       0 5084989952 1504     1504   active+clean+inconsistent 2024-09-29 22:29:58.946472   10718'2215613   10718:3121361   [57,0,42]         57   [57,0,42]             57  10718'2214485 2024-09-29 22:29:58.946402   10718'2214485 2024-09-29 22:29:58.946402             0 
3.614      1171                  0        0         0       0 5002305536 1523     1523   active+clean+inconsistent 2024-09-29 22:06:17.096530   10718'7500492   10718:7964961   [16,42,6]         16   [16,42,6]             16  10718'7494126 2024-09-29 22:06:17.096429   10718'7494126 2024-09-29 22:06:17.096429             0
# 根据相应的pg id修复
ceph pg  repair 3.614

标签:2024,运维,记录,09,42,29,CEPH,inconsistent,10718
From: https://www.cnblogs.com/gshelldon/p/18451632

相关文章

  • 【学习记录丨UVM】1.2驱动器driver(1)——最简单的driver及其实例化
    《UVM白皮书》关于driver的介绍一、只有driver——最简单的验证平台UVM是一个库,其中的driver等组件都是派生(extends)自UVM库中的类(class)。类中通过function和task实现组件功能。UVM常用类及树形结构_uvm树-CSDN博客 下边这张图展示了UVM常用的类之间的派生关系。可......
  • 【PostgreSQL】运维篇——PostgreSQL数据库的安全性措施
    数据库安全性是确保数据完整性、保密性和可用性的关键因素。PostgreSQL作为一个功能强大的开源关系数据库,提供了多种安全性措施,以保护数据免受未授权访问和潜在攻击。以下是对PostgreSQL数据库安全性措施的深入探讨,包括加密、审计、访问控制和网络安全。1.加密1.1数据库......
  • 【PostgreSQL】运维篇——定期备份与恢复策略
    在数据库管理中,定期备份是确保数据安全性和可恢复性的关键措施。制定一个有效的备份计划可以帮助您在发生数据丢失、损坏或其他灾难性事件时快速恢复数据。以下是制定定期备份计划的步骤,以及使用pg_dump和其他工具进行数据备份和恢复的详细介绍。1.备份计划的制定1.1确定......
  • 《机器学习》 学习记录 - 第一章
    早就听说西瓜书的大名,也是和它见上面了第1章绪论1.1引言机器学习是一门致力于研究如何通过计算的手段,利用经验来改善系统自身的性能的学科。经验通常以数据形式存在,因此机器学习所研究的主要内容,是关于在计算机上从数据中产生模型的算法,即学习算法。面对新的情况时,......
  • 2024CCPC山东省赛补题记录
    前言今天和队友VP了24CCPC山东省赛,最后9题,但是赛中7题左右我就隐身了,赛后看题解发现E题不难,赛时过的人太少导致有点畏手畏脚,看到题解一下就懂了,几分钟写好。这里主要补一下E和L的题解,这场比赛学到了维护区间信息,可以考虑把区间挂在线段树节点上,以及动态维护树直径的典。E传感器......