首页 > 其他分享 >Thanos 配置Prometheus的高可用 (一)

Thanos 配置Prometheus的高可用 (一)

时间:2023-01-13 11:35:51浏览次数:47  
标签:http 可用 prometheus nginx Prometheus thanos Thanos fastcgi

标签(空格分隔): Prometheus系列


一: Prometheus 的介绍与架构

1.1 Prometheus 的概述

1.prometheus 的介绍
Prometheus是一个开源的系统监控和告警工具包,最初由SoundCloud开发。自2012年开
始,许多公司和组织开始使用了Prometheus,该项目拥有非常活跃的开发者和用户社区。
Prometheus现在是一个独立的开源项目,独立于任何公司进行维护。为了强调这一点,并澄
清项目的治理结构,Prometheus在2016年加入了云原生计算基金会(CNCF),成为继
Kubernetes之后的第二个托管项目,也是从CNCF第二个毕业的项目。

2. Prometheus的主要特征:

2.1 Prometheus使用的是 度量(metric)名称和键/值对标签(label)的时间序列数据,是一种多
维的数据模型。
2.2 PromQL是一种灵活的查询语言,可以利用度量(metric)名称和标签进行查询、聚合。
2.3 不依赖于分布式存储,单个Prometheus服务也是自治理的。
2.4 使用基于HTTP的拉(pull)模型进行时间序列的数据收集。
2.5 同时也支持通过一个中间网关(pushgateway)来推送时间序列。
2.6 目标对象(主机)是通过静态配置或者服务发现来添加的。
2.7 支持多种图形模式和仪表盘。

3. prometheus的组件

Prometheus目前已经是一个生态系统,具有众多的可选组件。
3.1 Prometheus Server 本身用于抓取并存储时间序列数据。
3.2 客户端程序库用于检测各种编程语言编写的程序代码。
3.3 pushgateway用于支持短生命周期(short-lived)的作业(job)。
3.4 可以针对不同的服务提供对应的导出器(exporters)用于采集度量数据,如HAProxy、MySQL等服务。
3.5 用于告警的alertmanager组件
3.6 各种支持工具。
备注:大多数Prometheus组件都是用Go编写的,这使得它们很容易以静态二进制文件的形式
构建和部署。

prometheus 的官网:
          https://prometheus.io/

1.2 prometheus 的 架构

image.png

从上述架构图我们可以知道,Prometheus通过从Jobs/exporters中拉取度量数据;而短周期
的jobs在结束前可以先将度量数据推送到网关(pushgateway),然后Prometheus再从
pushgateway中获取短周期jobs的度量数据;还可以通过自动发现目标的方式来监控
kubernetes集群。所有收集的数据可以存储在本地的TSDB数据库中,并在这些数据上运行规
则、检索、聚合和记录新的时间序列,将产生的告警通知推送到Alertmanager组件。通过
PromQL来计算指标,再结合Grafana或其他API客户端来可视化数据。
Prometheus主要用于大规模的云端环境和容器化微服务(k8s)的监控,通过拉取(pull)应用程
序暴露出来的HTTP接口或exporter来获取时间序列数据。
Prometheus不适用于对监控要求100%准确的度量数据,比如每个请求的账单,因为收集的
数据可能还不够详细和完整。
Prometheus将其可以拉取指标的来源称为endpoint(端点),endpoint可以是各种
exporter(导出器)或应用程序。然后,为了拉取endpoint里的数据,Prometheus定义了名为
target(目标)的配置,告诉拉取时要如何进行连接等信息,多个具有相同功能角色的target组
合在一起就构成了一个job(作业),例如,具有相同用途的一组主机的资源监控器
(node_exporter),又或者是MySQL数据库监控器(mysqld_exporter)。
Prometheus默认是将收集到的时间序列数据存储在本地tsdb数据库中,且默认只保留15天,
也可以配置发送到其他时间序列数据库中。

二:thanos 的介绍

2.1 thanos 的概述

Thanos是基于Prometheus的具有高可用(HA)、存储持久化,多集群查询功能的监控解决方案。选择Thanos的主要原因:

· 所有组件都是无状态的(stateless)

· 监控数据和所有状态信息被持久化到对象存储(OSS)

· 服务之间通过稳定的StoreAPI对接

· 支持高可用的Prometheus部署(防止Prometheus单点故障)


thanos 的官网: https://thanos.io/ 

2.2 thanos 的架构

thanos 是一个基于 Prometheus 实现的监控方案,其主要设计目的是解决原生 Prometheus 上的痛点,并且做进一步的提升,
主要的特性有:全局查询,高可用,动态拓展,长期存储

image.png

Thanos 主要由如下几个特定功能的组件组成:(相当于微服务的模式,里面有比较多的组件)

边车组件(Sidecar):连接 Prometheus,并把 Prometheus 暴露给查询网关(Querier/Query),以供实时查询,并且可以上传 Prometheus 数据给云存储,以供长期保存(相当于可以连接本地prometheus以及查询器的)
查询网关(Querier/Query):实现了 Prometheus API,与汇集底层组件(如边车组件 Sidecar,或是存储网关 Store Gateway)的数据(可以去查询sidecar里面的数据,或者是程查询存储网关里面的一个数据,有一部分的数据可能还在本地,因为sidecar还没有将数据上传上去,这个时候去查询的时候会根据查询时间会去路由到本地的sidecar,如果数据在远程存储上面,那么就会从存储网关上面去读取)
存储网关(Store Gateway):将云存储中的数据内容暴露出来
压缩器(Compactor):将云存储中的数据进行压缩和下采样
接收器(Receiver):从 Prometheus 的 remote-write WAL(Prometheus 远程预写式日志)获取数据,暴露出去或者上传到云存储(和sidecar是两种不同的方式)
规则组件(Ruler):针对监控数据进行评估和报警
Bucket:主要用于展示对象存储中历史数据的存储情况,查看每个指标源中数据块的压缩级别,解析度,存储时段和时间长度等信息。
查询前端:实现Prometheus的api,将其代理给query,同时缓存响应
从使用角度来看有两种方式去使用 Thanos,sidecar模式和 receiver 模式。

三:prometheus 与thanos的部署

3.1 系统环境介绍

操作系统:
     centos7.9x64

主机名:
cat /etc/hosts
----
172.16.10.11    flyfish11
172.16.10.12    flyfish12
172.16.10.13    flyfish13
172.16.10.14    flyfish14
172.16.10.15    flyfish15
172.16.10.16    flyfish16
172.16.10.17    flyfish17
-----
本次安装前 5台虚拟机 (flyfish11/flyfish12/flyfish13/flyfish14/flyfish15)部署


系统初始化:
   1.系统关闭firewalld/selinux/iptables 清空
   2.配置所有虚拟机的root账号的无密钥登录
   3.配置时间服务器ntp1.aliyun.com 

3.2 安装prometheus


prometheus 需要安装两台(flyfish11/flyfish12)

Prometheus本身也是一个导出器(exporter),提供了关于内存使用、垃圾收集以及自身性能
与健康状态等各种主机级指标。
prometheus官网下载址:
https://prometheus.io/download/
wget https://github.com/prometheus/prometheus/releases/download/v2.41.0/prometheus-2.21.0.linux-amd64.tar.gz

useradd prometheus

tar -zxvf prometheus-2.41.0.linux-amd64.tar.gz
cd prometheus-2.41.0.linux-amd64
mv prometheus promtool /usr/bin/

chown prometheus:prometheus -R /usr/bin/prometheus /usr/bin/promtool

mkdir -p /var/lib/prometheus/
mv console* /var/lib/prometehus

chown prometheus:prometheus -R /var/lib/prometheus

mkdir /etc/prometheus 

mv prometheus.yml /etc/prometheus/

chown prometheus:prometheus -R /etc/prometheus/



Prometheus的配置文件是YAML格式,大致分为四大块,包括:global、alerting、
rule_files、scrape_configs。在下面的prometheus.yml配置文件中来描述其用途。
su - prometheus
cp -ap /etc/prometheus/prometheus.yml /etc/prometheus/prometheus.yml.bk 

cd /etc/prometheus/
vim prometheus.yaml
------
# my global config
global:
  scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
  evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
  # scrape_timeout is set to the global default (10s).
  external_labels:
    replica: A       ### flyfish12 一台就是 replica: B
# Alertmanager configuration
alerting:
  alertmanagers:
    - static_configs:
        - targets:
          # - alertmanager:9093

# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
  # - "first_rules.yml"
  # - "second_rules.yml"

# A scrape configuration containing exactly one endpoint to scrape:
# Here it's Prometheus itself.
scrape_configs:
  # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
  - job_name: "prometheus"

    # metrics_path defaults to '/metrics'
    # scheme defaults to 'http'.

    static_configs:
      - targets: ["localhost:9090"]
        labels:
          app: prometheus
          nodename: prometheus-services

  - job_name: 'flyfishsrvs'
    static_configs:
    - targets: ['172.16.10.11:9100']
      labels:
        app: master11
        nodename: flyfish11
        role: master
    - targets: ['172.16.10.12:9100']
      labels:
        app: node12
        nodename: flyfish12
        role: node
    - targets: ['172.16.10.13:9100']
      labels:
        app: node13
        nodename: flyfish13
        role: node
    - targets: ['172.16.10.14:9100']
      labels:
        app: node14
        nodename: flyfish14
        role: node
    - targets: ['172.16.10.15:9100']
      labels:
        app: node15
        nodename: flyfish15
        role: node
------


加载检查:
     promtool check config /etc/prometheus/prometheus.yml

image.png image.png

启动prometheus:


prometheus --config.file=/etc/prometheus/prometheus.yml &

netstat -nultp |grep 9090 

image.png

守护进程启动

cat > /usr/lib/systemd/system/prometheus.service <<EOF
[Unit]
Description=Prometheus
Documentiation=https://prometheus.io/
After=netowrk.target
[Service]
Type=simple
User=prometheus
ExecStart=/usr/bin/prometheus \
--config.file=/etc/prometheus/prometheus.yml \
--storage.tsdb.path=/var/lib/prometheus/data \
--web.enable-lifecycle \
--storage.tsdb.retention.time=180d \
--web.listen-address=0.0.0.0:9090 \
--web.enable-admin-api \
--web.console.templates=/var/lib/prometheus/console \
--web.console.libraries=/var/lib/prometheus/console_libraries \
--web.external-url=https://prometheus.flyfish.mointor.com \
--log.level=info
ExecReolad=/bin/curl -X POST http://127.0.0.0:9090/-/reload
TimeoutStopSec=2Os
Restart=always
LimitNOFILE=2048000
[Install]
WantedBy=multi-user.target
EOF


chmod +x /usr/lib/systemd/system/prometheus.service

service prometheus start 

chkconfig prometheus on 

image.png image.png

用同样的方式部署flyfish12 机器 

vim /etc/prometheus/prometheus.yml  #注意这个地方是 replica: B 

image.png

image.png image.png image.png

3.3 部署node_exporter

在客户端上面部署:

tar -zxvf  node_exporter-1.5.0.linux-amd64.tar.gz

mv node_exporter-1.5.0.linux-amd64 /usr/local/node_exporter

/usr/local/node_exporter/node_exporter &

netstat -nultp |grep 9100 

image.png

守护进程启动:

cat > /usr/lib/systemd/system/node_exporter.service <<EOF
[Unit]
Description=node_exporter
Documentation=https://prometheus.io/
After=network.target 
[Service]
Typer=simple
ExecStart=/usr/local/node_exporter/node_exporter \
--web.listen-address=:9100 \
--collector.systemd \
--collector.systemd.unit-whitelist="(ssh|docker|rsyslog|redis-server).service" \
--collector.mountstats \
--collector.tcpstat
ExecReload=/bin/kill -HUP
TimeoutStopSec=20s
Restart=always
[Install]
WantedBy=multi-user.target
EOF

-------


chmod +x /usr/lib/systemd/system/node_exporter.service

service node_exporter start

chkconfig node_exporter on 

netstat -nultp |grep 9100

ps -ef |grep node_exporter

image.png

同理部署flyfish12/flyfish13/flyfish14/flyfish15 的node_exporter 

image.png

flyfish11 的prometheus 

image.png

flyfish12 prometheus 

image.png

flyfish11 /flyfish12 采集的的一样 

这个时候如果在prometheus 上端做一个nginx 负载 前端加上grafana 做图表展示
如果其中一台prometheus 挂了 nginx 负载在这台 挂断的机器上面,就会出现数据展示图的短缺问题 

四:thanos 的的部署

thanos 只需要两个组件就可以形成一个机器,thanos-query 和thanos-sidecar 
用来抽象采集出数据层,从而来提供查询接口

下载:
    https://github.com/thanos-io/thanos/releases

4.1 thanos-sidecar

tar -zxvf thanos-0.30.1.linux-amd64.tar.gz
cd thanos-0.30.1.linux-amd64
cp -ap thanos /usr/bin/
thanos --help

image.png


thanos sidecar 启动

---
cat > /usr/lib/systemd/system/thanos-sidecar.service <<EOF
[Unit]
Description=thanos-sidecar
Documentation=https://thanos.io/
After=network.target 
[Service]
Type=simple
ExecStart=/usr/bin/thanos sidecar \
          --tsdb.path=/var/lib/prometheus/data \
          --prometheus.url=http://localhost:9090 \
          --http-address=0.0.0.0:10901 \
          --grpc-address=0.0.0.0:10902
ExecReload=/bin/kill -HUP
TimeoutStopSec=20s
Restart=always
[Install]
WantedBy=multi-user.target
EOF


---

service thanos-sidecar start 

service thanos-sidecar status

chkconfig thanos-sidecar on 

image.png image.png

flyfish12 同样部署

image.png

4.3 thanos-query

query 用来做查询所有可能数据接口,比如sidecar 或者storage-gateway
这里并没有将数据进行远程写,所以我们使用只需要查询sidecar 就行了
--------------
cat > /usr/lib/systemd/system/thanos-query.service <<EOF
[Unit]
Description=thanos-sidecar
Documentation=https://thanos.io/
After=network.target 
[Service]
Type=simple
ExecStart=/usr/bin/thanos query \
          --http-address=0.0.0.0:10903 \
          --grpc-address=0.0.0.0:10904 \
          --store=172.16.10.11:10902 \
          --store=172.16.10.12:10902 \
          --query.timeout=10m \
          --query.max-concurrent=200 \
          --query.max-concurrent-select=40 \
          --query.replica-label=replica
ExecReload=/bin/kill -HUP
TimeoutStopSec=20s
Restart=always
LimitNOFILE=2048000
[Install]
WantedBy=multi-user.target
EOF
-----

service thanos-query start 
chkconfig thanos-query on 
service thanos-query status 

image.png image.png image.png

flyfish12 主机一样的配置

image.png image.png image.png

四:配置nginx 负载均衡代理

在flyfish13 机器上安装nginx 

nginx服务器 地址: flyfish13 (172.16.10.13)
nginx的编译安装:
配置依赖包:
yum -y install gcc pcre pcre-devel zlib zlib-devel openssl openssl-devel gd gd-devel 
 tar -zxvf nginx-1.23.2.tar.gz
 cd nginx-1.23.2/
./configure \
--prefix=/usr/local/nginx \
--http-proxy-temp-path=/usr/local/nginx/proxy_temp \
--http-fastcgi-temp-path=/usr/local/nginx/fastcgi_temp \
--with-http_ssl_module \
--with-threads \
--with-file-aio \
--with-http_ssl_module \
--with-http_realip_module \
--with-http_gzip_static_module \
--with-http_secure_link_module \
--with-http_stub_status_module \
--with-http_auth_request_module \
--with-http_random_index_module \
--with-http_image_filter_module \
--with-stream 
make && make install 
---------------------------------------------------
cd /usr/local/nginx/
sbin/nginx 
ps -ef |grep nginx 

image.png

cd /usr/local/nginx/conf/
cp -ap nginx.conf nginx.conf.bak 
vim nginx.conf
------------
user root root;
worker_processes auto;
worker_cpu_affinity auto;
worker_rlimit_nofile 65535;

daemon on;
error_log /usr/local/nginx/logs/error.log warn;
pid /usr/local/nginx/pid/nginx.pid;

events {
    use epoll;
    worker_connections  65535;
}

# 开启环境变量
env SPRING_PROFILES_ACTIVE=master;

http {

    include mime.types;
    default_type application/octet-stream;

    charset utf-8;

    log_format main '$remote_addr - $remote_user [$time_local] '
                    '"$request" $status $body_bytes_sent '
                    '"$http_referer" "$http_user_agent" '
                    '"$http_x_forwarded_for" $host $request_time $upstream_response_time $scheme';

    log_format main1 '$remote_addr|$remote_user|[$time_local]|$request|'
                     '$status|$upstream_status|$body_bytes_sent|$http_referer|'
                     '$http_user_agent|$request_time|$host|$upstream_addr|$request_body|$upstream_response_time';

    log_format main3 '$http_x_forwarded_for|$remote_user|[$time_local]|$request|'
                     '$status|$upstream_status|$body_bytes_sent|$http_referer|'
                     '$http_user_agent|$request_time|$host|$upstream_addr|$request_body|$upstream_response_time';

    log_format lua '$remote_addr|$remote_user|[$time_local]|$request|'
                     '$status|$body_bytes_sent|$http_referer|'
                     '$http_user_agent|$request_time|$host|$upstream_addr|$upstream_response_time';

    log_format    main2  escape=json
        '{"@timestamp":"$time_iso8601",'
        '"host":"$hostname",'
        '"server_ip":"$server_addr",'
        '"client_ip":"$http_x_forwarded_for",'
        '"xff":"$http_x_forwarded_for",'
        '"domain":"$host",'
        '"url":"$uri",'
        '"referer":"$http_referer",'
        '"args":"$args",'
        '"upstreamtime":"$upstream_response_time",'
        '"responsetime":"$request_time",'
        '"request_method":"$request_method",'
        '"status":"$status",'
        '"size":"$body_bytes_sent",'
        '"request_body":"$request_body",'
        '"request_length":"$request_length",'
        '"protocol":"$server_protocol",'
        '"upstreamhost":"$upstream_addr",'
        '"file_dir":"$request_filename",'
        '"http_user_agent":"$http_user_agent"'
     '}';

    #基础优化
    server_tokens off;

    sendfile on;
    tcp_nopush on;
    tcp_nodelay on;

    keepalive_timeout  65;
    keepalive_requests 8192;

    # gzip
    gzip on;
    gzip_min_length 1k;
    gzip_buffers 4 16k;
    gzip_comp_level 3;
    gzip_types text/plain application/javascript  text/css application/json application/x-javascript text/xml application/xml application/xml+rss text/javascript application/x-httpd-php image/jpeg image/gif image/png;
    gzip_vary on;

    client_body_timeout 300;
    client_header_timeout 300;
    send_timeout 600;
    reset_timedout_connection on;

    client_max_body_size 50m;
    #client_body_buffer_size 4096k;
    client_body_buffer_size 8192k;

    #client_header_buffer_size 4k;
    #large_client_header_buffers 4 64k;
    client_header_buffer_size 16k;
    large_client_header_buffers 8 256k;

    server_names_hash_bucket_size 512;

    proxy_connect_timeout 600;
    proxy_read_timeout 600;
    proxy_send_timeout 600;

    proxy_buffer_size  128k;
    proxy_buffers   8 128k;
    proxy_busy_buffers_size 256k;

    output_buffers 1 32k;
    postpone_output 1460;

    open_file_cache max=65535 inactive=60s;
    open_file_cache_valid    80s;
    open_file_cache_min_uses 1;
    open_file_cache_errors   on;

    # fastcgi set
    fastcgi_ignore_client_abort       on;
    fastcgi_connect_timeout           300;
    fastcgi_send_timeout              300;
    fastcgi_read_timeout              300;
    #fastcgi_buffer_size               4k;
    #fastcgi_buffers                   8 4k;
    #fastcgi_busy_buffers_size         8k;
    #fastcgi_temp_file_write_size      8k;

    fastcgi_buffer_size               64k;
    fastcgi_buffers                   4 64k;
    fastcgi_busy_buffers_size         128k;
    fastcgi_temp_file_write_size      128k;

    # fastcgi TEST
    fastcgi_cache_valid 200 302 1h;
    fastcgi_cache_valid 301 1d;
    fastcgi_cache_valid any 1m;
    fastcgi_cache_min_uses 1;
    fastcgi_cache_use_stale error timeout invalid_header http_500;
    include /usr/local/nginx/conf/vhost/*.conf;

}

-----------
cd /usr/local/nginx/conf
mkdir vhost

cd vhost

vim thanos.conf

-----
server {
	
	  listen 80;
	  server_name flyfish13;
location / {

     # auth_basic "please enter you password";
     # auth_basic_user_file /usr/local/nginx/htpasswd;
     proxy_pass http://thanos;
     proxy_set_header Host $host;
     proxy_set_header X-Real-IP $remote_addr;
}
   
}

upstream thanos {
	 server 172.16.10.11:10903;
	 server 172.16.10.12:10903; 
}

-----


sbin/nginx -s stop 

sbin/nginx -t 

sbin/nginx 

image.png

五:安装 grafana

安装grafana
wget https://dl.grafana.com/enterprise/release/grafana-enterprise-9.3.2-1.x86_64.rpm
rpm -ivh grafana-enterprise-9.3.2-1.x86_64.rpm
/bin/systemctl daemon-reload
/bin/systemctl enable grafana-server.service
/bin/systemctl start grafana-server.service

image.png

打开grafana面板

http://172.16.10.14:3000

image.png

添加一个prometheus的代理

image.png image.png

导入import 面板
   

image.png image.png image.png image.png image.png

标签:http,可用,prometheus,nginx,Prometheus,thanos,Thanos,fastcgi
From: https://blog.51cto.com/flyfish225/6005846

相关文章

  • Prometheus配置飞书告警
       1、通过PrometheusAlert全家桶对接飞书告警,PrometheusAlert全家桶安装步骤https://github.com/feiyu563/PrometheusAlert  2、配置alermanager告警服务[......
  • PrometheusAlert 多渠道告警
    docker启动dockerrun-d\-p8080:8080\-ePA_LOGIN_USER=prometheusalert\-ePA_LOGIN_PASSWORD=prometheusalert\-ePA_TITLE=PrometheusAlert\-ePA_OPEN_......
  • 浅谈服务接口的高可用设计
    作者:京东零售王磊前言作为一个后端研发人员,开发服务接口是我正常不过的工作了,这些接口不管是面向前端HTTP或者是供其他服务RPC远程调用的,都绕不开一个共同的话题就是“高可......
  • 浅谈服务接口的高可用设计
    作者:京东零售王磊前言作为一个后端研发人员,开发服务接口是我正常不过的工作了,这些接口不管是面向前端HTTP或者是供其他服务RPC远程调用的,都绕不开一个共同的话题就是“......
  • prometheus单机存储与victoriametrics远程存储
      prometheus存储系统  Prometheus有着非常高效的时间序列数据存储方法,每个采样数据仅仅占用3.5byte左右空间,上百万条时间序列,30秒间隔,保留60天,大概200多G空间。......
  • Centos 二进制安装 Prometheus
    二进制下载地址:https://prometheus.io/download/下载以linux-amd64.tar.gz结尾的文件。1.下载二进制压缩包wget-P/homehttps://github.com/prometheus/prometheus......
  • Harbor 核心服务不可用---故障排除
    故障现象:Harbor登录时显示:核心服务不可用.2.排查思路可以通过浏览器打开登录页面,所以判断服务应该是起来了.在输入密码后报错,所以判断可能是登录验证时的错......
  • Gdevops广州站:支撑700亿数据量的ClickHouse高可用架构实践
    2021Gdevops全球敏捷运维峰会- 广州站,将在5月28日盛大举办。Gdevops经过创办6年成功举行近20场大会的经验积淀,本次峰会将结合行业趋势与技术热点,携手腾讯、京东、网易、......
  • el-select(控制多个多选框的禁用和可用)
    实现效果:点击冻结解冻可以控制左侧多选的禁用和可用状态原理::disabled='disabledName>0&&disabledName.indexof(city)!==-1'判断被禁用数组中包含不包含当前项,如包含则......
  • 问题盘点|使用 Prometheus 监控 Kafka,我们该关注哪些指标
    作者:阿里云可观测Kafka作为当前广泛使用的中间件产品,承担了重要/核心业务数据流转,其稳定运行关乎整个业务系统可用性。本文旨在分享阿里云Prometheus在阿里云Kafka......