• 2023-12-01ClickHouse + ClickVisual 构建日志平台
    越来越多的互联网公司开始尝试ClickHouse存储日志,比如映客、快手、携程、唯品会、石墨文档,但是ClickHouse存储日志缺少对应的可视化方案,石墨文档开源了ClickVisual用于解决这个问题。笔者初步尝试了一下ClickVisual,一点小小的实践经验,与各位分享。简介ClickVisual官方宣
  • 2023-06-25如何监控文件变化,比如密码修改导致 shadow 文件变化
    原始需求是如果系统的密码被修改,或者创建了新用户,就告警出来。本质上,只需要监控/etc/shadow文件变化即可。但是在指标监控体系里,这个事情就比较棘手,只能把文件的mtime作为指标的值上报,服务端再利用delta或者increase函数来判断mtime是否发生了变化。告警出来的文本也会
  • 2023-06-14机器硬件监控,最简单的方案,没有之一
    之前新东方的老师分享了他们通过Telegraf、Loki、Nightingale等工具来监控机器硬件状态的方案,具备很强的灵活性、平台性。本文会介绍一个相对轻量的方式,只需要一个二进制+一个脚本即可搞定,给各位朋友提供一种新的选择。新东方的方案物理机可以通过带外开启SNMP,通过SNMP可
  • 2023-06-08太卷了,史上最简单的监控系统 catpaw 简介
    指标监控的痛点当下比较流行的监控系统,比如Prometheus、Nightingale、VictoriaMetrics,都是基于数值型指标的监控系统,这类监控系统的痛点在于:告警的时候只能拿到异常值,以及有限的几个标签,难以拿到更详细的信息。比如HTTP探测监控,通常用监控值表示不同的错误:Success=