首页 > 其他分享 >优维全面可观测产品能力分解②:变更可观测

优维全面可观测产品能力分解②:变更可观测

时间:2024-01-29 18:06:13浏览次数:25  
标签:运维 系统 观测 故障 分解 优维 变更

优维全面可观测产品能力分解②:变更可观测_生产环境

上周,我们推出了优维全面可观测能力介绍的系列性文章的第一篇:架构可观测。优维架构可观测是从系统架构的视角来呈现链路与服务的状态数据,点击可回看:架构可观测文章。本周,我们将推出本系列性文章的第二篇:变更可观测

优维全面可观测产品能力分解②:变更可观测_运维_02

故障60%到80% 是由于变更引起的。

对于生产环境的稳定性,是各个行业相关公司都关注的。尤其是对于金融行业及大型互联网公司来说,稳定性就显得更为重要,另外,从诱发稳定性问题的原因分析来说,变更问题所占据的比例,常年超过一半以上,而故障60%到80% 是由于变更引起的。历史上因此产生的重大故障不胜枚举。

当公司业务规模扩大,系统采用分布式结构后,会增加系统的复杂性。同时,随着业务复杂性的提升,不同部门间的协作关系也变得更加错综复杂。这样一来,在大型企业中,进行任何改动或变更的挑战就更大了。

所以,对于稳定性来说,业界的一个共识是:预测及防控变更风险,稳定性问题就解决了一半以上。

1

变更遇到的问题

虽然说业界有了上述的一个共识,但诱发线上问题的根因是多种多样的。就如优维交付团队在辅助客户进行生产上变更时,就遇到以下问题:

  • 变更过程难以观测:生产环境中超过60%的故障来源于主动变更,业务运维难以从变更的角度观察是否给应用系统引入异常,变更活动只能“听天由命”。
  • 变更存在信息孤岛:支撑系统运行的应用程序、计算资源、存储、甚至网络等等环节由不同部门负责管理,各个环节的运维变更犹如信息孤岛,业务运维难以掌握和管理这些变更给应用系统带来的影响。

基于上述存在的问题,优维「变更可观测」旨在帮助用户观测生产环境的系统变更行为,让业务运维可以更加准确地评估系统健康状态,同时辅助其更高效地处理变更引起的故障,确保系统的稳定性与连续性。

2

优维变更可观测能力

优维「变更可观测」以变更事件为出发点,以应用系统为中心,帮助用户主动发现变更引入的异常,防止轻微异常扩大成故障。同时,消除信息孤岛,拉通东西向变更、南北向变更及变更时间流构成三维立体的变更观测视角,为运维提供全方位的变更洞察。

整体技术思路

基于用户痛点的洞察,优维变更可观测的思路是打通两个维度。

第一个维度要从东西向视角打通应用系统过往的变更历史,知道应用系统做过哪些变更;第二个维度是要从南北向视角打通支撑应用系统的各级资源,弄清楚分别有哪些资源,掌握资源的运行状况。

优维全面可观测产品能力分解②:变更可观测_运维_03

通过掌握以上两个维度的信息,横向上从系统变更工单的视角出发,通过变更工单可查看系统本身服务是否有告警,服务当前的健康指标状况,以及之前是否有故障工单的存在。同时,纵向上可查看系统各级资源,如各种中间件、数据库、存储等资源是否有告警,是否有做过变更,及资源当前是否存在故障。

核心功能

基于全面技术框架的双重视角,变更可观测性引入了一个横向的时间轴维度,使用户能够追溯过去72小时内的系统变更全景。用户通过这一时间序列分析功能,可深度洞察近三日内系统所实施的所有变更活动及其具体事件详情,并在变更执行后,能够精准关联并揭示由此触发的各类告警与故障现象,从而实现对系统健康状态的持续监控与有效管理。

优维全面可观测产品能力分解②:变更可观测_运维_04

在纵向维度上,用户能够对比查看服务变更前后的告警状态演变。同时,通过引入系统资源图谱,使用户能够宏观把握各类资源的告警态势,并能进一步详细了解特定资源类型的实例分布及其性能指标情况。

当某类资源出现异常告警时,用户可以沿此路径进行递进式下探分析,精确获取关联资源的详细告警记录、变更历史及故障详情信息,以实现全方位、多层次的运维洞察与问题定位。

3

变更可观测的应用场景

变更可观测主要覆盖以下应用场景:

  1. 追踪变更历史:要掌握生产环境一切变更计划和行动,回溯多渠道、全类型的变更,包括不限于应用变更、配置变更、数据库变更等。
  2. 健康态势评估:帮助业务运维/系统运维了解变更后系统是否存在异常,多次变更之间是否存在相互影响,融合系统资源图谱、资源告警及其他事件来得到一个关于变更后系统健康态势的准确评估。
  3. 辅助故障诊断:基于系统访问架构,融合指标监控、告警和事件信息,辅助业务运维进行故障诊断。

4

变更可观测的四大场景价值

  1. 观测变更的服务是否存在异常:变更完成后通过应用系统的角度查看变更的服务时存在的异常情况,主动观测、主动解决变更后服务可能存在的健康问题,防止问题恶化演变成为故障。
  2. 订阅变更报告:当运维成熟度足够高以后,业务运维可以订阅指定系统的变更报告,以定时推送或故障推送的方式在远端获取变更详情。提高运维灵活性,提高运维成熟度。
  3. 观测应用系统依赖的资源是否存在异常:将观测视角沿南北向下钻到基础设施资源层面,防止资源异常影响上层应用程序,甚至业务的故障。
  4. 查看应用系统依赖的变更记录:消除部门间信息孤岛,为业务运维带来更加丰富、全面的系统变更信息。

变更可观测是提升生产环境稳定性的一个重要洞察能力,相关应用场景的功能实力也在逐步完善建设起来,我们希望能给用户带来更精益、更可靠的可观测能力。

标签:运维,系统,观测,故障,分解,优维,变更
From: https://blog.51cto.com/u_15605878/9471378

相关文章

  • 使用 Feature Flags 实现数据库灰度迁移的监控与可观测性
    作者:观测云与胡博场景描述很多企业会遇到数据库升级、或数据库迁移的情况,尤其是在自建数据库服务向云数据库服务、自建机房向云机房、旧数据库向新数据库迁移等场景。然而,我们需要在整个移植过程中保证其稳定性、避免数据遗失、服务宕机等情况,最常见的移植方法之一就是数据库双写......
  • 更人性化的无阈值监控不再为无效告警烦恼-观测云
    作者:观测云数据智能产品方案架构师潘杨背景在监控高度分布式的应用程序时,可能依赖于多个基于云的和本地环境中的数百个服务和基础设施组件,在识别错误、检测高延迟的原因和确定问题的根因都是比较有挑战性的。即使你已经具备了强大的监控和警报系统,但是你的基础设施和应用程序也......
  • 新时代的监控系统--网站可观测性的基础功能
    愿景:成为世界级的监控观测基础设施作为国内领先的具备可观测性的实时数据监测平台,观测云不断钻研云计算技术,夯实产品性能和服务质量,在帮助越来越多的企业数字化转型的同时,为国内可观测性技术的发展贡献力量。观测云RUM基础功能  更快地故障调试速度理解用户体验,包括应用性能数据,......
  • 可观测性简史-可观测性价值精讲ppt-业务系统的护城河
    注:可观测性简史附在文末可观测性价值精讲随附:可观测性简史本文使用观测云-中国区1(杭州)站点,商业版账号。直接开通商业版可获得 500 元无限制代金券,实现本文观测场景每天消费仅需几分钱,可以用几十年了。docs.guance.com/billing/tra…或可以选择开通体验版,每天有2000的免费额度,,可......
  • 出海客户如何快速5分钟开启可观测性-shopify
    概览对于在线购物网站来说,理解顾客与网站的交互至关重要。本文将引导您如何在shopify网站上接入真实用户访问。配置登录shopify管理界面在左侧菜单栏找到【销售渠道】,点击【在线商店】在打开的菜单中,点击【模板】。在当前模板中,选择【编辑代码】在新打开的页面中,左侧【布局】下,找......
  • 如何通过观测云的RUM找到前端加载的瓶颈--可观测性入门篇
    声明与保证本文写作于2023年6月,性能优化的评价标准和优化方式仅适用于当前观测云控制台,当然随着产品迭代及技术更新,本文也会应要求适当更新。创建、修订时间创建修改人版本2023/6/24观测云***v1.0.01.网站性能评价的发展史(近20年)讲到网站性能优化,离不开网站技术发展史,更离不开网站......
  • 可观测性平台-数据洞察(2)-网站性能探究之页面加载时间
    声明首先本文数据均来源于对观测云的观测,欢迎和我一起折腾。如果你也对这部分内容感兴趣,欢迎私信。写在前面的话本文不设预期,写到哪里,聊到哪里名词解释目录气泡图:view_resource_count:loading_time:view_path_groupresource_size气泡图气泡图可用于展示三个变量之间的关系,与散点图......
  • 可观测平台-数据洞察-用户究竟苦等了多久(1)
    本文是可观测平台-数据洞察-用户究竟苦等了多久第一趴,一句话总结:看出研发,特别是前端代码,在请求发起前让用户等待了多久在Saas软件中效率为王,如何提升效率,识别效率卡点,本文给出一条思路。文章目录首先列出一些指标,和指标背后的原理,最后列出如何计算。指标字段类型描述resource_sizen......
  • 用户体验可观测性之-long task初认识
    本文只讨论跟longtask相关内容,自我学习。defLongTask isanewperformancemetricAPIthatcanbeusedformeasuringtheresponsivenessofanapplicationandhelpsdeveloperstounderstandthebaduserexperienceonthewebsite.ItenablesdetectingCPUintens......
  • 可观测性之浅析系统中sdk的不同引入方式的利与弊
    眼看要下班了,但是今天一篇文章也没有写,草稿箱还有之前就想写的sdk的引入方式的详细文章,但完全写完还要好久,我可以先写一份浅析出来。于是就有了本文,本文写作耗时15分钟,阅读完需要10分钟。本文首发于掘金,文章前提是不考虑sw的方式引入,同时不考虑在nginx等自动注入js脚本的方式,那么基......