首页 > 其他分享 >Flashcat与出行科技企业一起实践多云可观测

Flashcat与出行科技企业一起实践多云可观测

时间:2024-03-14 11:58:56浏览次数:25  
标签:出行 数据源 平台 故障 Flashcat 告警 多云

当前架构

某出行科技企业从单个公有云往多云转型,依托于国内领先的公有云提供商,采用多云架构,在可用性、弹性、成本、供应商依赖方面,拥有了显著的优势。

相应的,多云架构也给技术团队带来了一定的复杂度和技术挑战,最显著的就是如何高效的构建跨云的可观测性体系,提升故障发现、问题排查、性能分析等方面的能力。

可观测性工具现状:近10个分散的工具

跨云使用多个云监控工具,具体而言,存在以下痛点:

  1. 工具多,体验不一致,技术团队学习成本很高
  2. 仪表盘和告警策略的配置维护工作量大,需要在多平台重复配置
  3. 数据孤岛现象严重,关联分析成本高,效率低
  4. 需要为所有研发人员开通公有云控制台权限,管理维护成本高,存在信息安全隐患

特别的,当故障不可避免的发生时,最耗时的阶段是故障发现、故障定位环节。在当前的可观测平台现状下,技术团队需要登录两个云平台,挨个分别查看各个监控工具的数据,这大大增加了问题排查的复杂性和耗时。

从故障中早恢复1分钟,对用户带来的影响就会少一分,如何构建一个高效的故障发现和定位系统,也是可观测性平台建设的重中之重。

故障处理全生命周期

解决方案

Flashcat的目标是提供一个跨云统一的可观测性工具,使用 Flashcat,可以在一个平台上完成指标、日志、链路追踪数据的统一采集、可视化、告警、分析和OnCall,免去搭建和维护多套 Prometheus/Zabbix/Grafana/ELK/Jaeger/云监控的工作量,屏蔽多云监控的复杂度。

(一)落地效果:统一的监控平台

利用Flashcat的多数据源集成能力(包括Metrics源、Logging源、Tracing源、事件源四大类),通过对接数据源后,用户就可以在Flashcat平台上,对这些数据源背后的数据,进行集中的查询、可视化分析、告警等。

利用Flashcat整合多云监控工具

以上,用户只需要学习和使用Flashcat平台即可,不用再面对之前分散的多个工具,具体我们从以下四方面展开介绍:

多云统一的仪表盘

Flashcat仪表盘支持众多的图表,主要有时序图、表格、饼图、蜂窝图、排行榜、仪表盘等,并和Grafana兼容,本次落地过程中,把之前使用Grafana积累下来的面板,全部导入到了Flashcat中。此外Flashcat内置的仪表盘模板也非常多,其中包括公有云产品,例如阿里云ARMS、阿里云ECS、JVM等,快速的补齐了监控看板。

多数据源统一告警

针对接入的数据源,利用Flashcat多数据源统一告警功能,把腾讯云和阿里云的指标告警规则、日志告警规则统一维护到了Flashcat平台,降低了告警策略的配置维护工作量。

此外,当告警触发后,通过Webhook把告警发送到FlashDuty进行统一管理,包括聚合降噪、值班、分派、升级、触达等,大大改善了on-call效率,释放了工程师的人力。

Flashcat多数据源告警

以日志告警为例,当前业务告警严重依赖日志告警,所以在接入SLS-logstore、SLS-metricstore、CLS后,就可以在Flashcat平台上配置和管理这些日志告警规则了:

Flashcat SLS日志告警

Flashcat的日志告警规则配置页面,支持多查询条件语法高亮、支持表达式模式、支持|| && 括号等运算方式,可以很好的满足多云平台的日志告警需求。

当告警触发之后,在Flashduty平台上跟进整个告警的全生命周期过程。不仅仅降低了告警的接收总量(压缩率在80%左右),减轻了告警对工程师工作的打断影响,也减少了因为告警漏处理或者未及时处理带来的工作失误。 

(二)落地效果:高效的故障发现定位体系

在阶段一,统一了多个云厂商不同的工具的可观测性数据。如何让这些数据发挥价值,是阶段二的落地重点。

Flashcat故障定位最佳实践

参考Flashcat故障定位最佳实践,分别构建了北极星灭火图多维分析

北极星

指的是以核心业务视角,对业务健康指标进行实时的量化,进而发现“真”故障,并驱动起整个故障处理流程。所谓“真”故障就是指那些表示业务受损的指标,例如“乘客发单量”,“司机接单量”,“订单撮合率”,“在线司机数”等业务最关心的指标。通过定义、提取、实时检测这些北极星指标,技术团队就能第一时间发现业务受损的情况并及时介入,真正做到先于用户发现问题,先于业务发现问题。

从SLS生成北极星

最终构建起了适合出行业务特点的北极星指标体系,当这些北极星指标发生异常波动的时候,Flashcat的智能检测可以在1分钟内发出电话告警。 出行北极星

灭火图

指的是以技术视角,实时量化并展示IT系统健康全景,快速收敛故障范围并确定故障源,引导用户通过不断下钻排查定位故障。在灭火图建设中,利用了Flashcat灭火图模板快速导入能力,对核心主流程上的每个模块和接口,都构建了对应的灭火图卡片。

总结

经过双方技术专家的共同努力,根据出行业务自身的特点和行业特性,结合快猫星云在多云统一监控方向的最佳实践,构建起了统一的监控平台高效的故障发现定位体系,最终为公司的多云架构的落地增强了关键一环。

关于快猫星云和夜莺

夜莺 (Nightingale) 是一款开源云原生监控工具,是中国计算机学会接受捐赠并托管的第一个开源项目,在GitHub上有8000颗星,有数千家企业用户使用。快猫星云以开源夜莺为内核打造的“Flashcat平台”,是国内顶级互联⽹公司可观测性实践的产品化落地,致力于让可观测性技术更好的落地和发挥价值。

近一年多来,快猫星云服务了零售、游戏、智驾等多个领域的标杆用户,助力企业快速构建了行业领先的统一可观测性平台,比如:金拱门、海底捞、吉野家、高济健康、益丰大药房 / 叮当快药、UU跑腿、阳光出行、哈啰出行、小马智行 / 莉莉丝游戏、悠星网络、途游游戏、盛大等。

标签:出行,数据源,平台,故障,Flashcat,告警,多云
From: https://www.cnblogs.com/ulricqin/p/18072526

相关文章

  • 数字孪生加油站:智能出行新风尚
    在科技日新月异的今天,数字孪生技术已经悄然改变了我们生活的方方面面。 想象一下,在繁忙的高速公路上,一辆辆汽车疾驰而过,而路边的加油站却不再是传统意义上的加油站点。它们摇身一变,成为了集智能化、高效化、便捷化于一体的数字孪生加油站。这里,每一个加油设备都拥有了一个“数......
  • Zerto 10.0 U2 下载 - 适用于本地、混合和多云环境的灾难恢复和数据保护
    Zerto10.0U2下载-适用于本地、混合和多云环境的灾难恢复和数据保护勒索软件防护、灾难恢复和多云移动性的统一解决方案请访问原文链接:https://sysin.org/blog/zerto-10/,查看最新版。原创作品,转载请保留出处。作者主页:sysin.org携手ZERTO提升勒索软件保护与灾难恢复水......
  • 智慧路灯杆AI监测应用,让高速出行更安全
    高速公路是现代交通出行的重要组成,高速公路上的交通安全也一直是人们关注的焦点。针对更好监测和管理高速公路上的交通状况,可以基于智慧路灯杆打造AI交通监测应用,通过智能感知高速路段的路况、车况、环境状况,实现实时风险感知、风险预警和协同处置,让高速出行更安全。  方案......
  • 开启多云互联新时代,一站式解决“端到端”需求
    在中国联通国际有限公司的战略布局下,联通云联网以其独特的设计理念和功能特性,为全球企业用户带来了全新的云服务体验。其中,联通云联网在多云平台互联方面的特点尤为突出,通过深度融合云联网+本地专线方案,成功解决了企业面临的“端到端”需求,真正意义上实现了从物理设备终端到云端的......
  • VMware Aria Operations 8.16 - 多云 IT 运维管理
    VMwareAriaOperations8.16-多云IT运维管理通过统一的高性能平台,实现跨私有云、混合云和多云环境的IT运维管理。请访问原文链接:https://sysin.org/blog/vmware-aria-operations/,查看最新版。原创作品,转载请保留出处。作者主页:sysin.org自动驾驶式IT运维管理VMwar......
  • VMware Cloud Foundation (VCF) - 多云全栈基础架构组合解决方案
    VMwareCloudFoundation(VCF)-多云全栈基础架构组合解决方案fullstackinfrastructurewithaplatform请访问原文链接:https://sysin.org/blog/vmware-cloud-foundation/,查看最新版。原创作品,转载请保留出处。作者主页:sysin.orgVMwarebyBroadcom产品组合:VMwareCl......
  • 【鸿蒙千帆起】高德地图携手HarmonyOS NEXT,开启智能出行新篇章
    2024年1月18日下午,华为举办了鸿蒙生态千帆启航仪式,对外宣布HarmonyOSNEXT星河预览版现已开放申请,同时,首批200+鸿蒙原生应用加速开发,鸿蒙生态设备数量更是突破了8亿大关。这些进展反映了开发者和合作伙伴对鸿蒙生态未来发展的坚定信心和美好期待。1月19日HarmonyOS应用开发技术分......
  • VMware Aria Automation 8.16 - 多云基础架构自动化平台
    VMwareAriaAutomation8.16-多云基础架构自动化平台Multi-CloudInfrastructureAutomationPlatform请访问原文链接:https://sysin.org/blog/vmware-aria-automation/,查看最新版。原创作品,转载请保留出处。作者主页:sysin.org现代基础架构自动化平台VMwareAriaAutomati......
  • 华为云DTSE助力车卫士架构升级,探索智能出行行业数字化新路径
    本文分享自华为云社区《华为云DTSE助力车卫士技术架构升级,探索智能出行行业数字化新路径》,作者:HuaweiCloudDeveloper。毫无疑问,在双碳背景以及先进技术的加持下,智能网联汽车已成为汽车产业创新发展的重要方向。十年来,智能网联汽车在政策供给、标准赋能、产业示范和安全保障等方面......
  • 沉浸式体验:概念车展漫游可视化引领出行新潮流
    随着科技的飞速发展,汽车行业正经历着前所未有的变革。而在这场变革中,概念车展无疑是一个引领潮流、展望未来的重要舞台。 想象一下,你站在一个巨大的展厅中,四周陈列着各式各样的概念车。它们有的造型独特,有的功能先进,每一辆都代表了汽车行业未来的发展趋势。而现在,借助先进的虚......