查看故障
- 查看ceph状态
通过ceph的输出,发现osd.7提示slow ops,同时有1个pg处于inactive状态。
故障处理
- 确定osd状态
通过以上命令确定osd.7属于ceph03节点。
- 确定pg状态
通过以上命令,发现pg 7.1d stuck状态。
- 查看ceph日志
查看ceph03节点的ceph日志,/var/log/ceph/ceph-osd.7.log,内容如下:
故障解决
- 尝试重启mon服务
尝试重启ceph.mon服务,未生效。
- 尝试重启修复pg
尝试修复pg,未生效。
- 重启osd服务
尝试重启osd服务,问题得以解决。
经验总结
1、ceph变更,需要关机时,建议将应用全部停止后,再对ceph进行关机操作。
2、重新加电开机以后,先确保ceph状态正常,再去启动应用。
3、对于ceph日常的运维,要多进行监控,建立性能基线,在发现问题时,可以进行有效对比。