1. 问题背景

集群 pg 数量规划不合理，导致在集群存入大量的数据之后，osd 上的数据分布不均衡，部分 osd 的存储百分比接近或超过 85% 告警阈值，在百分比达到 95% 之后，集群会停止 IO。
由于调整 pg 风险高，需要提前做评估和审核，所以需要使用临时解决方案调整 osd 权重的方式，降低存储数量过高的 osd 权重，降低其 osd 中的存储数据量，避免 osd 使用率达到 95% 阈值。

2. 操作影响

调整 osd 权重之后，集群发生少量的数据均衡，业务无感知

3. 适用版本

TStack-通用

4. 操作范围

任意可操作 ceph 集群的存储节点

5. 操作周期

1 - 2 小时

6. 操作步骤

6.1 查看当前 osd 数据状态

# 列出最大的10个
ceph osd df | sort -rnk 7
# WEIGHT 列为当前集群 osd 使用率百分比
# %USE 列为当前集群 osd 权重
# VAR 列为为当前集群 osd 磁盘使用率/集群平均使用率，值接近 1 为最佳

6.2 计算需要调整的 osd 权重

计算方法： WEIGHT / VAR = [new_weight]（保留五位小数）
例如：某 osd 权重为 1.20000，VAR 为 1.2，调整后权重则为 1.20000 / 1.2 = 1.00000

注意：请勿将 WEIGHT 列与 REWEIGHT 列混淆，REWEIGHT 列在正常情况下，值永远为 1.00000

权重值视环境而定(不确定请与产品同学沟通)，一般情况只需对峰值进行处理

6.3 调整权重

# [id] 为 osd id
# [new_weight] 为 osd 新权重
# 调整前请将调整的 pg 及 pg 原权重记录，等到 pg 扩容完成之后，调整回原有权重
# 如果在操作过程中发生异常，请使用回退方案
ceph osd crush reweight osd.[id] [new_weight]

注意：每次只可操作一个 osd ，等到所有 PG 都为 active+[其它状态] 可执行下一个 REWEIGHT 操作

7. 回退步骤

# [id] 为 osd id
# [old_weight] 为 osd 原始权重
ceph osd crush reweight osd.[id] [old_weight]

标签：weight,权重,id,Ceph,集群,应急,osd,调整
From： https://www.cnblogs.com/xuning-xuning/p/17350227.html

ceph的常见命令
1、ceph设置回填速度foriin{0..125}docephtellosd.$iinjectargs"--osd_max_backfills1";doneforiin{0..125}docephtellosd.$iinjectargs"--osd_recovery_max_active1";doneforiin{0..125}docephtellosd.$iinjectar......
Ceph Pacific 版本磁盘预测模块
磁盘预测模块利用Ceph设备运行状况检查来收集磁盘运行状况指标，并使用内部预测器模块生成磁盘故障预测并返回到Ceph。它不需要任何外部服务器进行数据分析和输出结果。其内部预测器的准确率约为70%。1.启用运行以下命令以在Ceph环境中启用diskprediction_local模块：cephmg......
Ceph Pacific 各版本镜像说明
16.2.11容器镜像root@ubuntu-20-04-lts:~#dockerimagesREPOSITORY TAG IMAGEID CREATED SIZEregistry 2 0d153fadf70b 2monthsago ......
SoSdp 学习笔记
SoSdp用来解决这种问题：对于非负整数$i$，$K$，定义布尔型二元运算$i\subseteqK$，可以以下四种等价角度理解：$i\operatorname{bitand}K=i$。$\operatorname{bitand}$是按位与的意思。同一个二进制位上，$i$的这一位小于等于$K$的这一位。同一个二进制位上，\(......
“930大促”日活增速超40% ，哈啰如何用预案高效应急？
一分钟精华速览应急预案，是指在系统出现故障时，为了保障核心业务能够持续可用，而提前准备的指导手册。这个手册可以用来告诉我们：在遇到什么样的问题后，做什么样的操作能最大化地降低对业务的影响，将被动响应变为主动防御。哈啰结合“930大促”活动，从多角度分享了其在日常梳理、预案保鲜......
浅谈故障应急中的两个关键点
当故障真实发生后，带来的影响不仅仅是技术层面的，更多的是业务层面的，比如用户和商家的批量投诉，交易量下跌，广告资损等等。而这些影响又会产生巨大的外部压力，并传递到技术团队，这时如果没有很好的故障应对机制，技术团队就很容易陷入慌乱，不知所措。需要做以下两方面准备：1、业务恢复预案第......
应急响应流程
应急响应分为六个阶段，分别是：1.准备阶段准备阶段以预防为主，主要是进行风险评估等工作，包括建立信息安全管理体系、部署安全设备和安全防护软件、建立应急响应和演练制度等。2.检测阶段检测阶段是在安全事件发生后进行的，主要是判断安全事件是否还在发生，安全事件产生的原因，对业务......
应急响应常用命令
应急响应常用命令windows系统查看资源占用情况taskmgr查看当前系统会话queryuser踢出用户登录lusrmgr.msc查看本地用户和组lusrmgr.msc查看本地管理员组是否存在非法用户netlocalgroupadministrators使用Wmic查看系统统中是否有非法用户wmicUserAccountg......
Chaosd 模拟两地三中心集群的网络环境
作者：pepezzzz环境准备集群名称和版本tidb集群:tidb-h版本：v6.6.0集群拓扑：单中心模拟部署两中心部署拓扑，延时要求如下：模拟场景源目标延时同城172.16.x.71,72172.16.x.73,741.5ms异地172.16.x.66~68,71~74,77172.16.x.67200ms软件版本：chaosdx86平台：curl-fsSL-ochaosd-v1.2......

Ceph_osd_应急权重调整方案