背景

近期发现自己实验用的 Prometheus 性能出现瓶颈, 经常会出现如下告警:

PrometheusMissingRuleEvaluations
PrometheusRuleFailures

之后慢慢排查发现是由于 Prometheus 的某些 series 的高基数(High Cardinality)导致的. 本文是对 Prometheus 高基数问题的一次全面总结.

什么是基数(Cardinality)?

基数的基本定义是指一个给定集合中的元素的数量。

在Prometheus和可观察性的世界里，标签基数是非常重要的，因为它影响到你的监控系统的性能和资源使用。

下面这张图, 可以清晰地反应基数的重要性:

基数激增: Prometheus 中的基数的基本图示。

简单地说。基数是指一个标签的总体数值的计数。在上面的例子中，标签status_code的基数是5，(即:1xx 2xx 3xx 4xx 5xx),environment的基数是2(即prod dev)，而指标server_responses的总体基数是10。

多少算高基数?

一般来说:

较低的基数 1:5的标签值比率，
标准基数 1:80的标签值比率
高基数 1:10000的标签值比率。

还是上面的例子, 如果 status_code 是详细的code, 如200 404..., 那它的基数就可能高达数百个, environment的基数再多一些, 指标server_responses的总体基数就会迅速膨胀.

高基数的典型案例

这还不够形象, 再举 2 个特别典型的例子:

有一个指标叫做: http_request_duration_seconds_bucket
1. 它有 instance label, 对应 100 个实例;
2. 有 le label, 对应的是不同的 buckets, 有 10 个 buckets, 如(0.002 0.004 0.008 ... =+inf)
3. 它还有 url 这个 label, 对应的是不通的 url:
  1. 即使规模很小, url 可能也会有 400 个 url
  2. 这里还有个特别恐怖的隐患, 就是对于大规模系统来说, 这个 url 可能是近乎于无穷!!!
4. 它还有 http_method 这个label, 对应有 5 个 http method
5. 在这种情况下, 该指标的 label
  1. 小规模也会有: 100*10*400*5=2 000 000 200万个 series
    标签：container,seconds,bucket,Prometheus,调优,duration,total,基数
    From： https://www.cnblogs.com/east4ming/p/17242749.html

Windows-exporter（node-exporter）+ Prometheus + Grafana资源监控搭建
在性能测试过程中，资源监控可以时刻掌握被测软件运行环境的各类数据，从而更加直观地反馈测试过程中潜在的问题，下面是基于Windows-exporter（node-exporter）+Prometheus+Grafa......
Kubernetes应用访问层扩展CRD接入Prometheus原理
1、kubernetes扩展点kubernetes应用访问层扩展点：webhook、operator、aggregator、容器探针、启停回调、kubectl插件。kubernetes基础设施层扩展点：调度器扩展、存储插件、网......
分布式流处理组件-优化篇：Producer生产调优之核心参数
......
prometheus安装部署
prometheus安装部署方式一二进制文件安装Prometheus是一个开源的监视，查询和警报工具。该功能丰富的工具最初由Soundcloud于2012年构建，已被多家公司采用，以监控其IT基础......
玩prometheus过程中遇到的一些问题
一、pgw的无默认值监控项1、prometheus的配置文件global:scrape_interval:15s#Setthescrapeintervaltoevery15seconds.Defaultisevery1minute.ev......
深度学习模型训练和关键参数调优详解
本文将通过针对特定场景任务从模型选择、模型训练、超参优化、效果展示这四个方面与各位读者分享模型开发的一些心得。参考资料：最实用的项目开发全流程!从自建数据集到......
第23课：Spark旧版本中性能调优之HashShuffle剖析及调优
第23课：Spark旧版本中性能调优之HashShuffle剖析及调优2个core表示2个并行度文件个数：cpucores*reducestasksspark.shuffle.consolidateFiles=trueHashShuffle在spark中......
Spark商业案例与性能调优实战100课》第20课：大数据性能调优的本质和Spark性能调优要点
Spark商业案例与性能调优实战100课》第20课：大数据性能调优的本质和Spark性能调优要点分析基于本元想办法，大智若愚，大巧若拙！深入彻底的学习spark技术内核！......
《Spark商业案例与性能调优实战100课》第19课：商业案例之NBA篮球运动员大数据分析核心
《Spark商业案例与性能调优实战100课》第19课：商业案例之NBA篮球运动员大数据分析核心业务逻辑代码实战......
<<《Spark商业案例与性能调优实战100课》第17课：商业案例之NBA篮球运动员大数据分析系
<<《Spark商业案例与性能调优实战100课》第17课：商业案例之NBA篮球运动员大数据分析系统代码实战......

Prometheus性能调优-什么是高基数问题以及如何解决?

背景

什么是基数(Cardinality)?

多少算高基数?

高基数的典型案例

相关文章

赞助商

阅读排行