一、背景介绍
金融行业作为国内信息化发展最早、最成熟的行业之一,在数字化应用不断深入的情况下,传统运维面对微服务、容器、虚拟化等显得愈加力不从心,金融行业要建立与全新架构能力相匹配的运维体系,提升业务运营感知能力、基础架构运维掌控能力和敏捷业务支撑能力,保障业务连续性和安全稳定运行。这种新的需求指向可观测性、数据分析处理和告警收敛准确度提升等方面。
二、现状阐述
1、在众多应用中逐渐失去平衡
由传统集中式架构向分布式架构转型,容器、微服务等云原生技术的底层架构云化升级,架构转型演进的过程带来的是IT单元部署数量的显著增多。过去,运维管理的IT设备和数据的比例是1:100,未来,这一比例正快速变成1:100n,运维人员面对的IT设备和数据规模呈几何级增长。
不仅如此,微服务化以及分布式的依赖关系导致服务调用错综复杂,容器下的环境动态性增强,这让运维排障变得更难。全新架构、系统众多、可见性更差,传统运维依赖人的技能和经验大打折扣,运维效率在“快”与“稳”中失去平衡。
2、在告警风暴中迷失
在云环境和混合异构环境之下,IT运维的复杂度在不断上升。金融业务系统本来就比较庞杂,前中后台的业务系统叠加不同的技术路线、不同的产品,包括开源、开源的二次开发、商业化产品的混合使用,让底层的IT基础设施也各有差异。IT运维在跨系统的环境中反复横跳,运维难度不断攀升,即使一个饱有经验的运维管理人员发现故障后,也要耗费大量时间检查每一个系统,进行例如状态数据分析、抓包分析才能定位故障。这种依赖人力的运维效率在系统复杂、工作量大的环境中就显得捉襟见肘。
不得不说,运维人员每天处理告警事件,时刻忙于“救火”的状态,其实非常被动。真正有效的工作应该是防患于未然,才能保障稳定、高效的业务运行。
3、缺乏数据分析处理能力
数据即资产。后台产生的数据通过有效分析,为运营决策的支撑。来自软硬件、应用系统、平台工具系统等产生的数据,包括监控指标数据、报警数据、日志数据、网络数据、链路关系数据、运维知识数据、CMDB、运维流程等多类数据。数据的有效分析可以实现运行感知、业务感知等涉及的IT风险控制,性能管理、终端感知等涉及的客户体验分析,运营效能、服务质量,是业务的宝贵资产。
三、服务方案
结合用户现状及需求,在保障系统稳定运行的前提下,提高运维各个环节的运行质量。
1、数据分析
通过AI机器学习算法,对监控对象及应用指标产生的数据,进行计算、分析、告警。通过趋势性的数据分析展示,提供业务所需的资源、容量需求等,避免资产盲目扩张造成的资源浪费,有效控制成本。
对具有周期性、趋势性、季节性的海量时序指标数据进行异常检测,极大提高了运维效率和告警准确性。监控指标异常检测,例如CPU、内存、业务系统黄金指标,延时、并发量、错误等监控指标;应用指标异常检测例如应用的活跃用户数、访问页面数、响应时间等业务指标。
2、可视化交互
将运维对象及关联关系、运维流程、运维活动、运维管理信息转换成数字化的图形或图像进行展示,部署多样化展示大屏,支持全链路监控功能,提供监控指标对象的dashbord直观呈现,提供业务系统的应用拓扑关系,提高根因排查与故障定位效率。
3、告警收敛合并
各种监控工具会产生海量告警信息,可能存在大量的冗余告警甚至形成告警风暴,对运维人员产生极大干扰,降低运维工作的效率。
告警收敛合并可针对短时、大量的、甚至是持续的冗余告警,通过文本相似度、链路相关性、时间相关性判断,对冗余告警进行合并降噪,为运维人员提供有效的告警信息,大大提高运维效率。
四、用户收益
1、成本
提高资产、应用的利用率,稳定性能,降低软件、硬件资源投入。提供7*24时moc在线服务,降低运维人员压力和故障恢复成本。
2、质量
IT运维能够有效地保障业务系统稳定、持续,统一集中的全链路监控,可视化交互让过程可见、可控,提高各个运行环节的质量。提高故障定位及修复效率,实时巡检,多指标衡量,准确度和覆盖面大幅提升。
3、效益
变传统被动应答的故障处理方式为可观测的管理方式,便于快速发现、定位问题,节约用户告警处理的时间成本及专家技术成本,提供专业高效解决方案。
标签:运维,探索,业务,指标,监控,告警,数据 From: https://blog.51cto.com/u_15576159/6185550