首页 > 其他分享 >Ceph_osd_应急权重调整方案

Ceph_osd_应急权重调整方案

时间:2023-04-24 17:24:55浏览次数:37  
标签:weight 权重 id Ceph 集群 应急 osd 调整

目录

1. 问题背景

集群 pg 数量规划不合理,导致在集群存入大量的数据之后,osd 上的数据分布不均衡,部分 osd 的存储百分比接近或超过 85% 告警阈值,在百分比达到 95% 之后,集群会停止 IO。
由于调整 pg 风险高,需要提前做评估和审核,所以需要使用临时解决方案调整 osd 权重的方式,降低存储数量过高的 osd 权重,降低其 osd 中的存储数据量,避免 osd 使用率达到 95% 阈值。

2. 操作影响

调整 osd 权重之后,集群发生少量的数据均衡,业务无感知

3. 适用版本

TStack-通用

4. 操作范围

任意可操作 ceph 集群的存储节点

5. 操作周期

1 - 2 小时

6. 操作步骤

6.1 查看当前 osd 数据状态

# 列出最大的10个
ceph osd df | sort -rnk 7
# WEIGHT 列为当前集群 osd 使用率百分比
# %USE 列为当前集群 osd 权重
# VAR 列为为当前集群 osd 磁盘使用率/集群平均使用率,值接近 1 为最佳

6.2 计算需要调整的 osd 权重

计算方法: WEIGHT / VAR = [new_weight](保留五位小数)
例如:某 osd 权重为 1.20000,VAR 为 1.2,调整后权重则为 1.20000 / 1.2 = 1.00000

注意:请勿将 WEIGHT 列与 REWEIGHT 列混淆,REWEIGHT 列在正常情况下,值永远为 1.00000

权重值视环境而定(不确定请与产品同学沟通),一般情况只需对峰值进行处理

6.3 调整权重

# [id] 为 osd id
# [new_weight] 为 osd 新权重
# 调整前请将调整的 pg 及 pg 原权重记录,等到 pg 扩容完成之后,调整回原有权重
# 如果在操作过程中发生异常,请使用回退方案
ceph osd crush reweight osd.[id] [new_weight]

注意:每次只可操作一个 osd ,等到所有 PG 都为 active+[其它状态] 可执行下一个 REWEIGHT 操作

7. 回退步骤

# [id] 为 osd id
# [old_weight] 为 osd 原始权重
ceph osd crush reweight osd.[id] [old_weight]

标签:weight,权重,id,Ceph,集群,应急,osd,调整
From: https://www.cnblogs.com/xuning-xuning/p/17350227.html

相关文章

  • ceph慢请求处理
    故障现象虚机重启后黑屏,无任何报错提示故障处理1、查询ceph状态发现异常并且有慢请求2、查看日志发现有大量慢请求3、查询集群延迟最高的osd,发现为28、57、34、39、494、查询osd的信息,发现主机都是mon03节点5、集群打标签6、将慢请求的osd停止服务7、集群停止慢请求8、虚机重启后......
  • ceph的常见命令
    1、ceph设置回填速度foriin{0..125}docephtellosd.$iinjectargs"--osd_max_backfills1";doneforiin{0..125}docephtellosd.$iinjectargs"--osd_recovery_max_active1";doneforiin{0..125}docephtellosd.$iinjectar......
  • Ceph Pacific 版本磁盘预测模块
    磁盘预测模块利用Ceph设备运行状况检查来收集磁盘运行状况指标,并使用内部预测器模块生成磁盘故障预测并返回到Ceph。它不需要任何外部服务器进行数据分析和输出结果。其内部预测器的准确率约为70%。1.启用运行以下命令以在Ceph环境中启用diskprediction_local模块:cephmg......
  • Ceph Pacific 各版本镜像说明
    16.2.11容器镜像root@ubuntu-20-04-lts:~#dockerimagesREPOSITORY            TAG    IMAGEID   CREATED    SIZEregistry             2     0d153fadf70b 2monthsago  ......
  • SoSdp 学习笔记
    SoSdp用来解决这种问题:对于非负整数\(i\),\(K\),定义布尔型二元运算\(i\subseteqK\),可以以下四种等价角度理解:\(i\operatorname{bitand}K=i\)。\(\operatorname{bitand}\)是按位与的意思。同一个二进制位上,\(i\)的这一位小于等于\(K\)的这一位。同一个二进制位上,\(......
  • “930大促”日活增速超40% ,哈啰如何用预案高效应急?
    一分钟精华速览应急预案,是指在系统出现故障时,为了保障核心业务能够持续可用,而提前准备的指导手册。这个手册可以用来告诉我们:在遇到什么样的问题后,做什么样的操作能最大化地降低对业务的影响,将被动响应变为主动防御。哈啰结合“930大促”活动,从多角度分享了其在日常梳理、预案保鲜......
  • 浅谈故障应急中的两个关键点
    当故障真实发生后,带来的影响不仅仅是技术层面的,更多的是业务层面的,比如用户和商家的批量投诉,交易量下跌,广告资损等等。而这些影响又会产生巨大的外部压力,并传递到技术团队,这时如果没有很好的故障应对机制,技术团队就很容易陷入慌乱,不知所措。需要做以下两方面准备:1、业务恢复预案第......
  • 应急响应流程
    应急响应分为六个阶段,分别是:1.准备阶段准备阶段以预防为主,主要是进行风险评估等工作,包括建立信息安全管理体系、部署安全设备和安全防护软件、建立应急响应和演练制度等。2.检测阶段检测阶段是在安全事件发生后进行的,主要是判断安全事件是否还在发生,安全事件产生的原因,对业务......
  • 应急响应常用命令
    应急响应常用命令windows系统查看资源占用情况taskmgr查看当前系统会话queryuser踢出用户登录lusrmgr.msc查看本地用户和组lusrmgr.msc查看本地管理员组是否存在非法用户netlocalgroupadministrators使用Wmic查看系统统中是否有非法用户wmicUserAccountg......
  • Chaosd 模拟两地三中心集群的网络环境
    作者:pepezzzz环境准备集群名称和版本tidb集群:tidb-h版本:v6.6.0集群拓扑:单中心模拟部署两中心部署拓扑,延时要求如下:模拟场景源目标延时同城172.16.x.71,72172.16.x.73,741.5ms异地172.16.x.66~68,71~74,77172.16.x.67200ms软件版本:chaosdx86平台:curl-fsSL-ochaosd-v1.2......