首页 > 其他分享 >金融系统IT运维监控的探索与实践

金融系统IT运维监控的探索与实践

时间:2023-04-12 14:32:08浏览次数:35  
标签:运维 探索 业务 指标 监控 告警 数据

一、背景介绍

金融行业作为国内信息化发展最早、最成熟的行业之一,在数字化应用不断深入的情况下,传统运维面对微服务、容器、虚拟化等显得愈加力不从心,金融行业要建立与全新架构能力相匹配的运维体系,提升业务运营感知能力、基础架构运维掌控能力和敏捷业务支撑能力,保障业务连续性和安全稳定运行。这种新的需求指向可观测性、数据分析处理和告警收敛准确度提升等方面。

二、现状阐述


1、在众多应用中逐渐失去平衡

由传统集中式架构向分布式架构转型,容器、微服务等云原生技术的底层架构云化升级,架构转型演进的过程带来的是IT单元部署数量的显著增多。过去,运维管理的IT设备和数据的比例是1:100,未来,这一比例正快速变成1:100n,运维人员面对的IT设备和数据规模呈几何级增长。

不仅如此,微服务化以及分布式的依赖关系导致服务调用错综复杂,容器下的环境动态性增强,这让运维排障变得更难。全新架构、系统众多、可见性更差,传统运维依赖人的技能和经验大打折扣,运维效率在“快”与“稳”中失去平衡。


2、在告警风暴中迷失

在云环境和混合异构环境之下,IT运维的复杂度在不断上升。金融业务系统本来就比较庞杂,前中后台的业务系统叠加不同的技术路线、不同的产品,包括开源、开源的二次开发、商业化产品的混合使用,让底层的IT基础设施也各有差异。IT运维在跨系统的环境中反复横跳,运维难度不断攀升,即使一个饱有经验的运维管理人员发现故障后,也要耗费大量时间检查每一个系统,进行例如状态数据分析、抓包分析才能定位故障。这种依赖人力的运维效率在系统复杂、工作量大的环境中就显得捉襟见肘。

不得不说,运维人员每天处理告警事件,时刻忙于“救火”的状态,其实非常被动。真正有效的工作应该是防患于未然,才能保障稳定、高效的业务运行。


3、缺乏数据分析处理能力

数据即资产。后台产生的数据通过有效分析,为运营决策的支撑。来自软硬件、应用系统、平台工具系统等产生的数据,包括监控指标数据、报警数据、日志数据、网络数据、链路关系数据、运维知识数据、CMDB、运维流程等多类数据。数据的有效分析可以实现运行感知、业务感知等涉及的IT风险控制,性能管理、终端感知等涉及的客户体验分析,运营效能、服务质量,是业务的宝贵资产。


三、服务方案


结合用户现状及需求,在保障系统稳定运行的前提下,提高运维各个环节的运行质量。

1、数据分析

通过AI机器学习算法,对监控对象及应用指标产生的数据,进行计算、分析、告警。通过趋势性的数据分析展示,提供业务所需的资源、容量需求等,避免资产盲目扩张造成的资源浪费,有效控制成本。

对具有周期性、趋势性、季节性的海量时序指标数据进行异常检测,极大提高了运维效率和告警准确性。监控指标异常检测,例如CPU、内存、业务系统黄金指标,延时、并发量、错误等监控指标;应用指标异常检测例如应用的活跃用户数、访问页面数、响应时间等业务指标。

2、可视化交互

将运维对象及关联关系、运维流程、运维活动、运维管理信息转换成数字化的图形或图像进行展示,部署多样化展示大屏,支持全链路监控功能,提供监控指标对象的dashbord直观呈现,提供业务系统的应用拓扑关系,提高根因排查与故障定位效率。


3、告警收敛合并

各种监控工具会产生海量告警信息,可能存在大量的冗余告警甚至形成告警风暴,对运维人员产生极大干扰,降低运维工作的效率。

告警收敛合并可针对短时、大量的、甚至是持续的冗余告警,通过文本相似度、链路相关性、时间相关性判断,对冗余告警进行合并降噪,为运维人员提供有效的告警信息,大大提高运维效率。


四、用户收益

1、成本

提高资产、应用的利用率,稳定性能,降低软件、硬件资源投入。提供7*24时moc在线服务,降低运维人员压力和故障恢复成本。


2、质量

IT运维能够有效地保障业务系统稳定、持续,统一集中的全链路监控,可视化交互让过程可见、可控,提高各个运行环节的质量。提高故障定位及修复效率,实时巡检,多指标衡量,准确度和覆盖面大幅提升。


3、效益

变传统被动应答的故障处理方式为可观测的管理方式,便于快速发现、定位问题,节约用户告警处理的时间成本及专家技术成本,提供专业高效解决方案。

标签:运维,探索,业务,指标,监控,告警,数据
From: https://blog.51cto.com/u_15576159/6185550

相关文章

  • 性能测试之jmeter脚本监控3
    1,influxDb数据库2,安装influxDB服务3,配置jmeter监听器,后端监听器4,配置grafana可视化工具本文永久更新地址:1,influxDb数据库InfluxDB以更少的代码为分析、物联网和云原生服务构建实时应用程序。其核心是一个数据库,专门用于处理由传感器、应用程序和基础设施生成的海量数......
  • grafana+influxdb2+jmeter5.4搭建服务监控平台
    一.grafana+influxdb2安装通过docker的方式,创建个目录,写docker-compse1.docker-compse.ymlversion:"3"services:influxdb:image:influxdb:2.2.0container_name:influxdbports:-"8086:8086"grafana:image:grafana/grafana......
  • 火山引擎 DataLeap 推出全链路智能监控报警平台
     更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群随着大数据开发场景下需要运维管理的任务越来越多,在日常运维中开发者经常会面临以下几个问题:任务多,依赖关系复杂:很难查找到重要任务的所有上游任务并进行监控。如果监控所有任务,又会产生很多无......
  • lsof-文件监控常用命令
    参考:lsof-文件监控常用命令_lsof-p_lucky多多的博客-CSDN博客lsof-文件监控常用命令_lsof-p_lucky多多的博客-CSDN博客......
  • Linux 运维必须掌握150个命令讲解自我总结版本
    Linux运维必须掌握150个命令讲解https://wangchujiang.com/linux-command/apt-getlinux命令在线中⽂⼿册(51yip.com)explainshell.com-find(1)-searchforfilesinadirectoryhierarchy1.线上查询及帮助命令(3个)manhelpInfos ⽂件和⽬录操作命令(19个)l......
  • 分布式监控平台------Zabbix
    一、Zabbix概述作为一个运维,需要会使用监控系统查看服务器状态以及网站流量指标,利用监控系统的数据去了解上线发布的结果,和网站的健康状态。利用一个优秀的监控软件,我们可以:●通过一个友好的界面进行浏览整个网站所有的服务器状态●可以在Web前端方便的查看监控数据●可以回......
  • skywalking 监控 springboot项目
     部署探针打开idea开发工具Run-》EditConfigurations点击Modifyoptions-》AddVMoption-javaagent:E:\projectdeploy\apache-skywalking-apm-9.2.0\apache-skywalking-apm-bin\agent\skywalking-agent.jar-Dskywalking.agent.service_name=service-mylesson-jav......
  • AI智能安防监控EasyCVR视频融合平台播放鉴权功能的介绍及配置
    EasyCVR视频融合平台基于云边端协同架构,支持海量视频汇聚管理,在复杂的网络环境中,将分散的各类视频资源进行统一汇聚、整合、集中管理,实现视频资源的鉴权管理、按需调阅、全网分发、智能分析等。平台可支持多协议接入,包括市场主流标准协议与厂家私有协议及SDK,如:国标GB28181、RTMP、......
  • AI智能安防监控视频分析平台EasyCVR视频调阅播放异常的优化
    EasyCVR视频融合平台基于云边端协同架构,具有强大的数据接入、处理及分发能力。平台可支持多协议、多类型的前端设备接入,包括:IPC、NVR、视频编码器、视频平台、车载终端、车机设备、警用移动执法仪、手持智能移动终端、无人机等;支持采用设备树对设备进行分组、分级管理,支持设备状态......
  • 运维故障排查思路::::::
    一文带你搞懂Linux运维故障排查思路入门小站 入门小站 2023-04-0721:30 发表于湖北收录于合集#Linux755个入门小站分享运维技巧及10k+Stars的开源项目234篇原创内容公众号【Linux250个常用命令速查手册】关注【入门小站】,后台回复「1001」自取......