首页 > 其他分享 >Etcd 监控

Etcd 监控

时间:2023-06-21 20:55:06浏览次数:47  
标签:set 监控 Etcd -- prometheus etcd RED

Etcd 监控

重点监控指标

指标分类

  • 健康状态

  • USE 方法(系统)

    • 使用率

    • 饱和度

    • 错误

  • RED 方法(应用)

    • 请求速率

    • 错误率

    • 延迟

指标分类指标释义
健康状态 实例健康状态 etcd是一个分布式系统,由多个成员节点组成。监控etcd成员节点的状态可以帮助你了解集群中节点的健康状况,发现掉线或者异常节点。
健康状态 主从状态  
健康状态 etcd leader切换统计 频繁的领导者变更会严重影响 etcd 的性能。这也意味着领导者不稳定,可能是由于网络连接问题或对 etcd 集群施加的过载负荷导致的。
健康状态 心跳 etcd集群中的节点通过发送心跳来保持彼此之间的连接。监控丢失的心跳可以帮助你发现etcd节点之间的通信问题或者网络延迟。
RED 方法 QPS  
RED 方法 请求错误率 监控etcd的错误率可以帮助你发现etcd操作中的潜在问题。高错误率可能表明集群遇到了故障或其他异常情况。
RED 方法 请求延迟 监控etcd的请求延迟可以帮助你了解API请求的处理时间。较高的延迟可能表明etcd正面临负载压力或性能问题。
RED 方法 磁盘同步(WAL/DB fsync)耗时 高磁盘操作延迟(wal_fsync_duration_seconds或backend_commit_duration_seconds)通常表示磁盘问题。它可能会导致高请求延迟或使群集不稳定。
RED 方法 同步延迟 如果集群正常运行,已提交的提案应该随着时间的推移而增加。重要的是要在集群的所有成员中监控这个指标;如果单个成员与其领导节点之间存在持续较大的滞后,这表明该成员运行缓慢或存在异常。
RED 方法 提案失败次数 失败的提案通常与两个问题相关:与领导选举相关的暂时性故障或由于集群丧失法定人数而导致的较长时间的停机。
RED 方法 快照处理时间 etcd定期创建快照以备份数据。监控快照处理时间可以帮助你了解etcd备份的性能,确保备份任务能够及时完成。
RED 方法 watcher 数量 监控etcd集群当前连接到etcd的客户端数量。如果连接数过高,可能需要调整etcd的配置或者增加集群的容量。
USE 方法 CPU 使用率  
USE 方法 内存使用量  
USE 方法 打开文件数  
USE 方法 存储空间使用率 监控etcd存储空间的使用率可以帮助你确保etcd有足够的空间存储配置数据。如果使用率接近或达到上限,可能需要考虑扩展存储容量或者清理无用的数据。

使用 kube-prometheus 收集 etcd 指标

http 模式(推荐)

修改--listen-metrics-urls

    #- --listen-metrics-urls=http://127.0.0.1:2381
  - --listen-metrics-urls=http://127.0.0.1:2381,http://ip:2381

部署

helm install monitoring -n cattle-prometheus --set kubeEtcd.service.port=2381 --set kubeEtcd.service.targetPort=2381 --set prometheusOperator.admissionWebhooks.patch.image.sha=null ./

https 模式

新增 etcd secret

kubectl create secret generic etcd-certs -n cattle-prometheus --from-file=/etc/kubernetes/pki/etcd/ca.crt --from-file=/etc/kubernetes/pki/etcd/healthcheck-client.crt --from-file=/etc/kubernetes/pki/etcd/healthcheck-client.key

部署

helm install monitoring -n cattle-prometheus  --set kubeEtcd.serviceMonitor.scheme=https --set kubeEtcd.serviceMonitor.caFile=/etc/prometheus/secrets/etcd-certs/ca.crt --set kubeEtcd.serviceMonitor.certFile=/etc/prometheus/secrets/etcd-certs/healthcheck-client.crt --set kubeEtcd.serviceMonitor.keyFile=/etc/prometheus/secrets/etcd-certs/healthcheck-client.key --set prometheus.prometheusSpec.secrets={etcd-certs} --set prometheusOperator.admissionWebhooks.patch.image.sha=null ./

大盘展示

Grafana 大盘: https://github.com/clay-wangzhi/grafana-dashboard/blob/master/etcd/etcd-dash.json 导入即可

image-20230616180204033

image-20230616180334752

image-20230616180508983

巡检

完成集群部署、了解成员管理、构建好监控及告警体系并添加好定时备份策略后,这时终于可以放心给业务使用了。然而在后续业务使用过程中,你可能会遇到各类问题,而这些问题很可能是metrics监控无法发现的,比如如下:

  • etcd集群因重启进程、节点等出现数据不一致;

  • 业务写入大 key-value 导致 etcd 性能骤降;

  • 业务异常写入大量key数,稳定性存在隐患;

这时就需要巡检。

参考ServiceMonitor和EtcdBackup机制,同样可以通过CRD的方式描述此巡检任务,然后通过相应的Operator实现此巡检任务。

 

参考链接:

datadog etcd 指标

etcd 实战课 | 极客时间 唐聪

标签:set,监控,Etcd,--,prometheus,etcd,RED
From: https://www.cnblogs.com/clay-wangzhi/p/17497145.html

相关文章

  • 数据仓库和数据湖的性能监控和优化:确保数据的实时性和准确性
    目录1.引言2.技术原理及概念3.实现步骤与流程4.应用示例与代码实现讲解数据仓库和数据湖是现代企业级数据分析和决策的基础,因为它们提供了存储和处理大量数据的能力。然而,当数据量庞大,处理速度缓慢,存储容量不足时,数据仓库和数据湖的性能往往会受到瓶颈,影响数据的实时性和准确......
  • 计讯物联工况污染源自动监控系统,绘就绿色生态画卷
    政策背景2023年3月15日,福建省政府第3次常务会议审议通过《福建省固定污染源自动监控管理办法(草案)》(以下简称《办法》)。《办法》自2023年7月1日起施行。其中,《办法》第十五条规定,排污单位应当按照国家有关规定采取视频监控措施或者用电、用能、用水等过程监控措施。视频监控范围应......
  • 基于消息队列的实时日志处理与监控
    目录1.引言2.技术原理及概念3.实现步骤与流程4.示例与应用"基于消息队列的实时日志处理与监控"随着软件开发和监控的深入发展,日志处理和监控已经成为软件开发中不可或缺的一部分。实时日志处理和监控技术在保障系统稳定性和可靠性方面发挥着越来越重要的作用。在本文中,我们将介......
  • prometheus 监控 hadoop + Hbase + zookeeper + mysql exporter
    1. run JMX exporter as a java agent with all the four daemons. For this I have added EXTRA_JAVA_OPTS in hadoop-env.sh and yarn-env.sh :[root@cloud01hadoop]#catyarn-env.sh|egrep-v'^$|#'exportYARN_RESOURCEMANAGER_OPTS="$YARN_RESOURC......
  • Qt编写监控实时显示和取流回放工具(回放支持切换进度)
    一、前言现在各个监控大厂做的设备,基本上都会支持通过rtsp直接取流显示,而且做的比较好的还支持通过rtsp回放取流,基本上都会约定一个字符串的规则,每个厂家都是不一样的规则,比如回放对应的rtsp地址还要带上时间范围,回放肯定要指定一个开始时间和结束时间。这里需要特别提示的是,按道......
  • PostgreSQL 通过python 监控逻辑复制
    上期是讲逻辑复制,本期是通过PYTHON来对逻辑复制中的配置参数,publication定义,打印不适合进行逻辑复制的表,打印没有在使用的复制槽,另外包含当前发布端和接收端两边的LSN对比。以下是代码,对于逻辑复制中主要的监控点有1 是不是存在复制槽不使用的情况2 是不是存在主库和从库之......
  • 评估 Etcd 性能及可靠性
    评估Etcd性能及可靠性SLI&SLOSLI(ServiceLevelIndicator):服务等级指标,其实就是我们选择哪些指标来衡量我们的稳定性。SLO(ServiceLevelObjective):服务等级目标,指的就是我们设定的稳定性目标,比如“几个9”这样的目标。SLO是SLI要达成的目标,我们需要选择合适的SLI,设定......
  • 小宾短视频监控宝v1.21发布,支持抖音作者的实时监控和自动下载
     随着互联网的发展,短视频已经成为了人们生活中不可或缺的一部分。无论是个人还是企业,都可以通过短视频来展示自己的才华和产品。然而,随之而来的是短视频内容的监管问题。为了帮助工会组织和个人主播更好地管理和监控短视频内容,我们推出了一款名为小宾短视频监控宝的软件工具。......
  • Zabbix-客户端利用snmp v2 协议上线被监控
    Zabbix-客户端利用snmpv2协议上线被监控SNMP监控案例背景:在现网很多场景中,zabbix除了监控windows、linux服务器外,还会监控网络等设备,但这些设备上是无法安装agent2这个客户端插件,那我们改如何利用zabbix来监控呢。但网络设备都是支持SNMP协议的,因此我们可用利用SNMP简单......
  • PLC模拟量数据采集远程监控物联网解决方案
    在PLC工控系统中,温度、压力、液位、流量等传感器采集的信息传输到PLC中,并实现自动化控制,从而对生产进度、设备运行进行更好的管理,有助于提高管理效率并降低生产成本。物通博联工业智能网关可以接入各品牌PLC进行协议解析和数据采集工作,采集温度、压力、液位、流量等模拟量数据并通......