分层运维自动化监控
背景
架构设计的分层架构思想是一种将软件系统划分为多个层次的设计方法,每个层次都有其特定的职责和功能,通过层次之间的接口进行通信,以实现系统的整体目标。这种设计思想的核心在于将复杂的系统分解为一系列相对独立的子问题,并通过各层的协作来提供整体的解决方案。
分层架构思想的优势
降低系统复杂度:
通过分层将一个复杂的系统拆分成不同层次的关联个体,各个个体专注于它们特有的职责和功能,从而降低了单个问题的规模和复杂度。
提高开发效率:
开发人员可以专注于某一层次的开发工作,而不必担心其他层次的具体实现,提高了开发效率。
易于维护和扩展:
分层架构使得系统的各个部分相对独立,修改或扩展某一层次的功能时,对其他层次的影响较小,从而降低了维护成本。
同时,由于各层次之间的低耦合性,可以方便地插入新的层次来扩展系统的功能。
提高系统可靠性:
分层架构使得系统的各个层次可以独立地进行测试和验证,从而提高了系统的可靠性和稳定性。
实践
分层运维自动化监控实践通过将监控系统划分为多个层次,实现了不同层次的功能和管理需求。如下是不同层监控对应关系图,右边是我们监控常规的软件项目,中间件较多并没有完全罗列,
仅供参考:
通常包含这几个层监控
1)硬件基础设施层:
环境动力:暖通系统(如空调、新风系统、机房环境、漏水等)、电力系统(如配电柜、UPS、ATS等)、安防系统(如防雷、消防、门禁等)等
网络设备:路由器、二三层网络交换机、多层交换机、负载均衡设备等
安全设备:防火墙、入侵检测IDS、防病毒、加密机等
其主要任务是收集和汇总监控数据,并将其传递给视图层用于展示和告警。
2)服务器层:
关注CPU、磁盘、内存、网络、可用性和性能等服务器层面的监控
虚拟化:虚拟网络资源、虚拟主机、虚拟存储资源等
存储设备:磁盘阵列、虚拟带库、物理磁带库、SAN、NAS等
服务器:大中小型机、X86服务器
实施基础设施级别的告警和事件管理。
基于基础设施层数据进行容量规划和优化
3)系统软件-基础设施层:
操作系统:Linux, Ubuntu, CentOS, Windows, Fedora CoreOS, OpenSUSE, Red Hat等
数据库:ORACLE,DB2,SQL SERVER,MYSQL,DM, PostgreSQL, Redis, Kafka, HBase等
中间件:WEBSPHERE、WEBLOGIC、MQ、IHS、TOMCAT、AD等
其它系统软件:备份软件
收集应用服务器性能、数据库响应时间和平台级资源利用率等指标。
实施对平台特定事件、日志和安全漏洞的监控。
确保支持应用的平台服务的可用性和可靠性。
监控集成组件(如 API、消息总线和企业服务总线)的健康和性能。
收集消息吞吐量、延迟和错误率等指标。
实施对集成特定事件、日志和安全方面的监控。
Prometheus Exporter 是一种用于将特定应用程序或服务的指标数据暴露给 Prometheus 监控系统的工具或组件。在 Prometheus 的架构中,Exporter 扮演着至关重要的角色,因为它们负责从被监控的目标(如数据库、消息队列、Web 服务器等)收集指标,并将这些指标以 Prometheus 能够理解的格式(通常是文本格式,遵循 Prometheus 的 exposition format)暴露出来。
4)应用服务层:
服务可用性:服务状态、日志刷新、端口监听、网络连通性等。更侧重于应用层面的监控,比如Prometheus平台可以用于监控微服务架构中的各个服务实例,确保它们正常运行此外,业务层还关注数据的可视化和多维数据展示能力,如仪表盘和大屏显示。
监控业务应用和服务的行为和性能。
收集面向用户的指标,如应用响应时间、交易量和错误率。
实施综合和真实用户监控,评估最终用户体验。
分析应用级日志和事件,识别和排查问题。
5)客户体验层:
客户访问速度:页面响应时间、拨测登录、普通页面渲染时间、重要接口响应时间等。
监控面向用户的组件(如 Web 界面和移动应用)的可用性和性能。
收集页面加载时间、用户交互和设备特定性能等指标。
实施对用户体验和可访问性指标的监控。
分析用户行为和反馈,以优化表现层。
阿里云,腾讯云,华为云都有拨测服务,涉及费用
数据流
从内到外
从外到内,从云端开始,取决于网络安全策略配置
IT 运维团队应该:
- 实施覆盖所有层面的综合监控策略。
- 明确各层面监控的所有权和责任。
- 整合跨层面的监控数据,实现端到端可见性。
- 使用高级分析和关联功能,识别和诊断问题。
- 通过剧本和运行手册自动化常见问题的修复。
- 持续优化监控工具和流程,提高效率。
通过采用基于层级的 IT 运维监控方法,组织可以增强维护 IT 系统健康和性能的能力,更有效地响应事件,并推动 IT 运维的持续改进。
智能运维全栈监控
运维监控平台通过集成这些不同层次的监控数据,实现跨层次的故障关联分析,迅速定位问题源头,提高故障处理效率。同时,自动化操作平台支持线上变更、任务执行的安全可控,实现运维流程的标准化和自动化,提升运维效率和质量。智能运维全栈监控解决方案还利用大数据和人工智能技术,实现智能告警、性能优化和资源调度,进一步提升运维的智能化水平。例如,通过实时收集并分析网络设备数据,运维人员可以迅速发现问题、定位问题,甚至预测潜在故障,实现主动式运维管理。参考如下:
结论
分层运维自动化监控是构建稳定、高效IT环境的关键。通过将监控策略与自动化操作相结合,IT组织能够实现对基础设施、应用服务和业务运营的全面、深入监控,从而提升运维效率,确保业务连续性和用户体验。信息源自对分层运维自动化监控策略的综合分析,涵盖了从硬件设备到软件系统,再到业务应用的全方位监控体系。通过自动化工具和智能分析技术,运维团队能够实现对IT环境的实时监测和智能化管理,以应对分布式系统中复杂的运维挑战。
今天先到这儿,希望对AIGC,云原生,技术领导力, 企业管理,系统架构设计与评估,团队管理, 项目管理, 产品管理,信息安全,团队建设 有参考作用 , 您可能感兴趣的文章:
构建创业公司突击小团队
国际化环境下系统架构演化
微服务架构设计
视频直播平台的系统架构演化
微服务与Docker介绍
Docker与CI持续集成/CD
互联网电商购物车架构演变案例
互联网业务场景下消息队列架构
互联网高效研发团队管理演进之一
消息系统架构设计演进
互联网电商搜索架构演化之一
企业信息化与软件工程的迷思
企业项目化管理介绍
软件项目成功之要素
人际沟通风格介绍一
精益IT组织与分享式领导
学习型组织与企业
企业创新文化与等级观念
组织目标与个人目标
初创公司人才招聘与管理
人才公司环境与企业文化
企业文化、团队文化与知识共享
高效能的团队建设
项目管理沟通计划
构建高效的研发与自动化运维
某大型电商云平台实践
互联网数据库架构设计思路
IT基础架构规划方案一(网络系统规划)
餐饮行业解决方案之客户分析流程
餐饮行业解决方案之采购战略制定与实施流程
餐饮行业解决方案之业务设计流程
供应链需求调研CheckList
企业应用之性能实时度量系统演变
如有想了解更多软件设计与架构, 系统IT,企业信息化, 团队管理 资讯,请关注我的微信订阅号:
作者:Petter Liu
出处:http://www.cnblogs.com/wintersun/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
该文章也同时发布在我的独立博客中-Petter Liu Blog。