首页 > 其他分享 >无需推翻既有的建设,这个可观测性产品思路清奇

无需推翻既有的建设,这个可观测性产品思路清奇

时间:2024-09-03 11:18:21浏览次数:2  
标签:推翻 无需 清奇 用户 故障 Flashcat 链路 日志 数据

市面上已经有很多开源、商业的可观测性类产品,比如 Zabbix、Prometheus、Nightingale、SigNoz、SkyWalking、ELK 等等,而且各类云厂商也会提供自己的可观测性套件,有些规划混乱的云厂商甚至会提供功能重叠的多套产品,这加剧了企业数据孤岛的现状。来看两组数据:

两组数据感受真实的企业环境

据不完全统计,一个中型企业,平均会使用 5 种以上的监控工具,而一个大型企业,平均会使用 10 种以上的监控工具。

云上的、云下的,开源的、自建的、商业的,网络的、服务器的、数据库的、中间件的、应用的、业务的,指标的、日志的、链路的、事件的。

大家都想结束这种混乱的局面,但是,又不想完全抛弃现有的建设,毕竟,抛弃现有的建设就意味着否定前人的决策和努力、意味着巨大的迁移成本、意味着各类团队合作的破事接踵而至。

不引入新的数据孤岛,能否用一个产品整合所有这些零散工具,提供更好的数据串联、可观测性能力,加速故障定位?答案是 Yes,给大家推荐一款这样的产品:Flashcat。

Flashcat产品架构图

Flashcat 是快猫星云以开源夜莺为内核打造的一体化观测平台,有以下特点:

  • 可以直接接入各类监控系统作为数据源,无需推翻既有的建设,快速见效;
  • 如果某个方面的数据缺失,Flashcat 也可以提供补充,比如你们只有 Prometheus 做了指标体系,想要补齐日志体系,Flashcat 可以提供日志体系的能力,包括日志采集、日志ETL、日志存储、日志查询、日志告警等;
  • Flashcat 是“面向故障定位”设计的,沉淀了一些故障定位的方法论和场景,让用户用好各类观测数据,更快地定位故障;

前面两点较容易理解。第三点,来详细说明一下。

其他的观测平台,大都是把数据平铺呈现,功能菜单里直接粗暴的分成指标、日志、链路追踪,甚至指标里继续细分成基础设施、应用、业务等,这样的设计,对于故障定位并不友好。原因是:

  • 用户缺少总览驾驶舱的视角,没法从全局看到系统的健康度;
  • 数据之间缺少联动,需要用户的脑子里有一个全局的模型,才能把各类数据串联起来;比如要查看某个服务的健康状态,需要去指标里查询某些特定指标、去日志里查某些索引、去链路追踪里查某些调用链,不同的数据,有不同的检索方式和关键字,这增加了用户的认知负担;导致,只有资深的运维人员,才能熟练地使用这些工具,运维新手,甚至研发人员都很难用好;导致观测平台很难发挥应有的价值;

Flashcat 的做法,主打一个知识沉淀复用,平时用户定位故障时,先看什么数据,再看什么数据,都可以在 Flashcat 里沉淀下来。把各类数据有机整合呈现,比如:

  • 首先提供全局驾驶舱视角,让用户一目了然的看到各个业务的健康状态
  • 某个核心业务指标出问题了,比如订单量暴跌,用户可以在 Flashcat 里方便看到那些影响订单量的服务的健康状态
  • 某个服务的 5xx 错误率升高了,用户可以在 Flashcat 里方便看到该服务的哪个维度的请求 5xx 了,快速发现数据特征

北极星-业务指标全局健康状态图

上图是 Flashcat 的北极星页面,可以清晰看到公司全局六大业务的健康状态,其中电商业务飘红了,有异常,点击详情进去,看看具体是哪个核心业务指标异常了。

Flashcat北极星业务详情

详情中可以看到,商品实时下单量这个关键业务指标暴跌,在某些时刻直接跌到0了,这是一个明显的故障,用户可以在暴跌的位置点击鼠标,就可以看到那些相关的服务是否健康,不健康的直接红色标注,用户就可以快速定位到故障服务,比如这里明显看到 电商->订单子系统 功能异常,用户可以直接点击进去,继续下钻排查:

Flashcat订单子系统的灭火图

上图是展示的订单子系统的各个功能,大部分功能都是绿色健康的(这里的颜色有很好的引导作用),只有一个“订单提交”的功能红色异常了,继续点击详情,可以看到这个功能的 Performance 数据的历史趋势图:

订单提交功能的历史趋势图

三张图,分别是关键的 RED 指标:请求量(Request)、成功率/错误率(Error)、Duration(延迟),这里很明显,故障原因就是这个接口的成功率时有掉底。继续点击掉底的位置,可以下钻查看掉底时的日志、链路数据等等,甚至可以对异常区间和正常区间进行自动比对:

特征分析

系统会分析两个时段各个维度的数据,把差异比较大的维度标注出来。当然,更常见的用法是根据异常指标查看相关日志,并且根据日志里的 traceId 查看链路数据:

指标串联日志和链路

上例中异常日志中带有链路 traceId,用户可以直接点击 trace 按钮从日志串联到链路数据:

链路数据

通过查看链路数据,最终我们发现,这个故障的根因是调用 10.201.0.210:6379 这个 Redis 失败了,抓紧去止损即可。

整个过程看起来要点击好几次,实际上每个地方都有颜色和图形引导,用户操作起来并不复杂,即便是新手,对整个系统不太熟悉,根据观测平台的颜色引导,也能快速定位故障。这,才是一个观测平台应该有的样子!

Flashcat 这种产品思路,是市面上少见的,值得一试。你可以加我微信好友,预约 Flashcat 的产品讲解和演示,或者去我们官网,了解更多产品信息。我们的官网是:https://flashcat.cloud/

巴辉特微信

标签:推翻,无需,清奇,用户,故障,Flashcat,链路,日志,数据
From: https://www.cnblogs.com/ulricqin/p/18394171

相关文章

  • 无需搜索即可达到大师级国际象棋水平
     人工智能咨询培训老师叶梓转载标明出处自从IBM的深蓝(DeepBlue)在1997年战胜了世界棋王加里·卡斯帕罗夫(GarryKasparov)以来,机器在这一领域的表现一直是衡量其智能的重要标准。传统上国际象棋引擎依赖于复杂的启发式算法、明确的搜索或两者的结合。然而,GoogleDeepMind......
  • MATLAB下的粒子滤波例程|三维非线性模型|组合导航|PF代码(无需下载,直接复制到MATLAB上
    文章目录模型与程序概述PF介绍运行结果程序代码各部分模块的作用模型与程序概述模拟INS、GPS组合导航的应用背景。在模型预处理的时候通过迭代计算三维位置的真值和滤波前(模拟纯INS计算)的值。通过PFPFPF(粒子滤波,p......
  • 产品攻略 | 无需设计技能,10分钟轻松打造专业级可视化看板!
    假如给你1天时间,让你做出一个酷炫又直观的可视化看板,你会不会感到有些手足无措?要让一个可视化看板既有视觉冲击力,又能传达清晰的信息,通常需要设计者具备出色的设计能力和审美眼光。从颜色搭配到布局设计,每一个细节都需要反复推敲。对于许多普通用户而言,这不仅耗时费力,而且最终的结......
  • 刚刚!Stable Diffusion 4.9更新,Ai绘画最强工具来了!(无需安装,解压即用)
    2024可以称得上是Ai技术大爆发的元年,目前两款Ai神器大火,一款是大名鼎鼎的ChatGPT。另外一款大火的是本期强哥介绍的Ai绘图软件—StableDiffusion。8月StableDiffusionAi绘画最新版本更新啦!此次从4.8.7更新至4.9版本!主要是更新优化和大模型增加,无需复杂的部署,解压即......
  • 无需代码,快速搭建:JNPF低代码平台的创新应用案例
    在数字化转型的浪潮中,企业对于迅速开发和部署应用的需求不断上升。传统的软件开发方法耗时较长、成本较高,难以适应快速变化的市场需求。低代码平台应运而生,它通过可视化界面和配置化手段,显著简化了应用开发流程。JNPF作为一款领先的低代码开发平台,以其无需编写代码、快速搭建的......
  • 【转载】Win11优化大小核调度(无需重启)
    出处:https://bbs.saraba1st.com/2b/thread-2140520-1-1.html打开隐藏电源管理选项:管理员模式运行cmd,分别输入:powercfg-attributesSUB_PROCESSOR7f2f5cfa-f10c-4823-b5e1-e93ae85f46b5-ATTRIB_HIDEpowercfg-attributesSUB_PROCESSOR93b8b6dc-0698-4d1c-9ee4-0644e900c85......
  • 【逐行注释】基于CV/CT模型的IMM|MATLAB程序|源代码复制后即可运行,无需下载
    订阅专栏后可以直接查看完整的源代码(和注释),无需付费下载或其他的操作。代码复制到MATLAB上面可以得到和我一样的运行结果。文章目录程序概述完整代码与逐行注释运行结果解释按模块分析代码程序概述基于EKF的多模型交互。以CV和CT两个模型进行交互,这里对代码进......
  • 【逐行注释】三维EKF的MATLAB代码|源代码直接呈现,无需下载
    文章目录程序概述完整代码与逐行注释运行结果代码块解析订阅专栏后可以直接查看完整的源代码(和注释),无需付费下载或其他的操作。代码复制到MATLAB上面可以得到和我一样的运行结果。程序概述基于MATLAB的EKF(扩展卡尔曼滤波)代码解析。状态转移和观测都是非线性......
  • 目标检测实践过程中,遇到“No module named ‘torch._six’”报错的一个快速解决方案(无
    很多人在按照网络、书籍教程中的流程尝试自己实现一个基于Faster-RCNN的目标检测模型时,如果调用了PyTorch官方github上的文件时,coco_eval.py文件中会触发报错。1.报错原因PyTorch在2.0之后的版本中移除了_six,导致在coco_eval.py中调用torch._six失败2.解决方案(1)直接根......
  • AI的“心理医生“来了:无需大模型训练就能提升对话质量
    大语言模型(LLM)的出现无疑是人工智能领域近年来最重要的突破之一。从GPT到ChatGPT,再到最新的GPT-4,这些模型展现出了惊人的自然语言理解和生成能力,在各个领域都引发了广泛的应用。然而,即便是最先进的LLM,在与人类进行对话时也常常会出现理解偏差、答非所问等问题。如何......