摘要:
Ceph OSD Status out down;
- k8s笔记1(知识图谱,添加节点,ceph存储)_ATCtoK8s 空管智能运维的技术博客_51CTO博客
- 【ceph】ceph OSD状态及常用命令 - bdy - 博客园 (cnblogs.com)
- ceph集群磁盘故障,更换磁盘流程-腾讯云开发者社区-腾讯云 (tencent.com)
1、Ceph Dashboard的Cluster>>OSDs显示有out down:(out:命令ceph osd out 10该 osd 踢出集群;down:命令ceph osd down 10,此时该 osd 不接受读写请求) 集群外(out);挂了且不再运行(down);集群内(in);活着且在运行(up)。
- 正常情况下OSD的状态是up in状态,如果down掉OSD,它的状态会变为down in,等待数据均衡完成后osd变为down out状态,Ceph 会把其归置组迁移到其他OSD, CRUSH 就不会再分配归置组给它。
- 检查为/dev/sdb(RAID0)的一个磁盘故障导致,更换磁盘,重新设置RAID0后,现象如下:(由osd-prepare Job识别为OSD的应该显示167 167),osd-prepare这个Job运行后ll /dev/sdb显示从 root disk变为167 167。
rook-ceph rook-ceph-osd-10-88d88cd44-c7jmz 0/1 CrashLoopBackOff
没有rook-ceph-osd-prepare-k8s-node03的job运行完成记录Completed
[root@k8s-node03 ~]# ll /dev/sdb // root disk而不是167 167
brw-rw---- 1 root disk 8, 16 /dev/sdb
# k edit CephCluster rook-ceph -n rook-ceph 删除以下内容,然后再添加后ll /dev/sdb 显示167 167
- devices:
- name: sdb
name: k8s-node03
- 但是Ceph Dashboard中OSDs的ID在最后递增:原先状态out down的ID 10还在,新增ID 11
在ceph-tools容器中命令可以删除ID 10,Ceph Dashboard中ID 10的条目消失。
[root@k8s-master01 ~]# k -n rook-ceph exec -ti rook-ceph-tools-897d6797f-nghs9 -- bash
[root@rook-ceph-tools-897d6797f-nghs9 /]# ceph osd tree
ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF
10 hdd 0.27280 osd.10 down 0 1.00000
11 hdd 0.54559 osd.11 up 1.00000 1.00000
# ceph osd rm osd.10
- 但是在Ceph Dashboard的CRUSH map viewer中还有:
从crush map中删除OSD后OK。
# ceph osd crush rm osd.10
removed item id 10 name 'osd.10' from crush map
- CRUSH算法的设置目的是使数据能够根据设备的存储能力和宽带资源加权平均地分布,并保持一个相对的概率平衡。CRUSH会复制数据到多个磁盘,这些复制的数据在恢复的时候使用,确保ceph的容错性。 在将新的磁盘加入Ceph集群后,集群将开始将数据平衡到新的磁盘上。
2、