首页 > 其他分享 >分层运维自动化监控

分层运维自动化监控

时间:2024-08-13 15:27:19浏览次数:8  
标签:架构 层次 运维 系统 分层 监控 自动化

分层运维自动化监控

背景

     架构设计的分层架构思想是一种将软件系统划分为多个层次的设计方法,每个层次都有其特定的职责和功能,通过层次之间的接口进行通信,以实现系统的整体目标。这种设计思想的核心在于将复杂的系统分解为一系列相对独立的子问题,并通过各层的协作来提供整体的解决方案。

分层架构思想的优势

降低系统复杂度:
通过分层将一个复杂的系统拆分成不同层次的关联个体,各个个体专注于它们特有的职责和功能,从而降低了单个问题的规模和复杂度。
提高开发效率:
开发人员可以专注于某一层次的开发工作,而不必担心其他层次的具体实现,提高了开发效率。
易于维护和扩展:
分层架构使得系统的各个部分相对独立,修改或扩展某一层次的功能时,对其他层次的影响较小,从而降低了维护成本。
同时,由于各层次之间的低耦合性,可以方便地插入新的层次来扩展系统的功能。
提高系统可靠性:
分层架构使得系统的各个层次可以独立地进行测试和验证,从而提高了系统的可靠性和稳定性。


实践

    分层运维自动化监控实践通过将监控系统划分为多个层次,实现了不同层次的功能和管理需求。如下是不同层监控对应关系图,右边是我们监控常规的软件项目,中间件较多并没有完全罗列,

仅供参考:

分层运维监控体系

通常包含这几个层监控

1)硬件基础设施层:
环境动力:暖通系统(如空调、新风系统、机房环境、漏水等)、电力系统(如配电柜、UPS、ATS等)、安防系统(如防雷、消防、门禁等)等
网络设备:路由器、二三层网络交换机、多层交换机、负载均衡设备等
安全设备:防火墙、入侵检测IDS、防病毒、加密机等

其主要任务是收集和汇总监控数据,并将其传递给视图层用于展示和告警。
2)服务器层:

关注CPU、磁盘、内存、网络、可用性和性能等服务器层面的监控
虚拟化:虚拟网络资源、虚拟主机、虚拟存储资源等
存储设备:磁盘阵列、虚拟带库、物理磁带库、SAN、NAS等
服务器:大中小型机、X86服务器
实施基础设施级别的告警和事件管理。
基于基础设施层数据进行容量规划和优化
3)系统软件-基础设施层
操作系统:Linux, Ubuntu, CentOS, Windows, Fedora CoreOS, OpenSUSE, Red Hat等
数据库:ORACLE,DB2,SQL SERVER,MYSQL,DM, PostgreSQL, Redis, Kafka, HBase等
中间件:WEBSPHERE、WEBLOGIC、MQ、IHS、TOMCAT、AD等
其它系统软件:备份软件
收集应用服务器性能、数据库响应时间和平台级资源利用率等指标。
实施对平台特定事件、日志和安全漏洞的监控。
确保支持应用的平台服务的可用性和可靠性。
监控集成组件(如 API、消息总线和企业服务总线)的健康和性能。
收集消息吞吐量、延迟和错误率等指标。
实施对集成特定事件、日志和安全方面的监控。

Prometheus Exporter 是一种用于将特定应用程序或服务的指标数据暴露给 Prometheus 监控系统的工具或组件。在 Prometheus 的架构中,Exporter 扮演着至关重要的角色,因为它们负责从被监控的目标(如数据库、消息队列、Web 服务器等)收集指标,并将这些指标以 Prometheus 能够理解的格式(通常是文本格式,遵循 Prometheus 的 exposition format)暴露出来。
4)应用服务层:
服务可用性:服务状态、日志刷新、端口监听、网络连通性等。更侧重于应用层面的监控,比如Prometheus平台可以用于监控微服务架构中的各个服务实例,确保它们正常运行此外,业务层还关注数据的可视化和多维数据展示能力,如仪表盘和大屏显示。

监控业务应用和服务的行为和性能。
收集面向用户的指标,如应用响应时间、交易量和错误率。
实施综合和真实用户监控,评估最终用户体验。
分析应用级日志和事件,识别和排查问题。
5)客户体验层:
客户访问速度:页面响应时间、拨测登录、普通页面渲染时间、重要接口响应时间等。

监控面向用户的组件(如 Web 界面和移动应用)的可用性和性能。
收集页面加载时间、用户交互和设备特定性能等指标。
实施对用户体验和可访问性指标的监控。
分析用户行为和反馈,以优化表现层。

阿里云,腾讯云,华为云都有拨测服务,涉及费用

数据流

从内到外

image

从外到内,从云端开始,取决于网络安全策略配置

image

IT 运维团队应该:

image

  • 实施覆盖所有层面的综合监控策略。
  • 明确各层面监控的所有权和责任。
  • 整合跨层面的监控数据,实现端到端可见性。
  • 使用高级分析和关联功能,识别和诊断问题。
  • 通过剧本和运行手册自动化常见问题的修复。
  • 持续优化监控工具和流程,提高效率。

通过采用基于层级的 IT 运维监控方法,组织可以增强维护 IT 系统健康和性能的能力,更有效地响应事件,并推动 IT 运维的持续改进。

智能运维全栈监控

    运维监控平台通过集成这些不同层次的监控数据,实现跨层次的故障关联分析,迅速定位问题源头,提高故障处理效率。同时,自动化操作平台支持线上变更、任务执行的安全可控,实现运维流程的标准化和自动化,提升运维效率和质量。智能运维全栈监控解决方案还利用大数据和人工智能技术,实现智能告警、性能优化和资源调度,进一步提升运维的智能化水平。例如,通过实时收集并分析网络设备数据,运维人员可以迅速发现问题、定位问题,甚至预测潜在故障,实现主动式运维管理。参考如下:

image

结论

     分层运维自动化监控是构建稳定、高效IT环境的关键。通过将监控策略与自动化操作相结合,IT组织能够实现对基础设施、应用服务和业务运营的全面、深入监控,从而提升运维效率,确保业务连续性和用户体验。信息源自对分层运维自动化监控策略的综合分析,涵盖了从硬件设备到软件系统,再到业务应用的全方位监控体系。通过自动化工具和智能分析技术,运维团队能够实现对IT环境的实时监测和智能化管理,以应对分布式系统中复杂的运维挑战。


今天先到这儿,希望对AIGC,云原生,技术领导力, 企业管理,系统架构设计与评估,团队管理, 项目管理, 产品管理,信息安全,团队建设 有参考作用 , 您可能感兴趣的文章:
构建创业公司突击小团队
国际化环境下系统架构演化
微服务架构设计
视频直播平台的系统架构演化
微服务与Docker介绍
Docker与CI持续集成/CD
互联网电商购物车架构演变案例
互联网业务场景下消息队列架构
互联网高效研发团队管理演进之一
消息系统架构设计演进
互联网电商搜索架构演化之一
企业信息化与软件工程的迷思
企业项目化管理介绍
软件项目成功之要素
人际沟通风格介绍一
精益IT组织与分享式领导
学习型组织与企业
企业创新文化与等级观念
组织目标与个人目标
初创公司人才招聘与管理
人才公司环境与企业文化
企业文化、团队文化与知识共享
高效能的团队建设
项目管理沟通计划
构建高效的研发与自动化运维
某大型电商云平台实践
互联网数据库架构设计思路
IT基础架构规划方案一(网络系统规划)
餐饮行业解决方案之客户分析流程
餐饮行业解决方案之采购战略制定与实施流程
餐饮行业解决方案之业务设计流程
供应链需求调研CheckList
企业应用之性能实时度量系统演变

如有想了解更多软件设计与架构, 系统IT,企业信息化, 团队管理 资讯,请关注我的微信订阅号:

image_thumb2_thumb_thumb_thumb_thumb[2]

作者:Petter Liu
出处:http://www.cnblogs.com/wintersun/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。 该文章也同时发布在我的独立博客中-Petter Liu Blog。

标签:架构,层次,运维,系统,分层,监控,自动化
From: https://www.cnblogs.com/wintersun/p/18357026

相关文章

  • 【web】web 自动化框架
    1、WEB自动化框架1)selenium 缺点:1>稳定性不好:Selenium本身提供的方法,并不能保证testcase稳定通过,因为element状态有时候并不可用,这个时候的actions肯定会有问题。虽然使用人员会封装Selenium方法,加入一些等待,甚至是元素状态轮询判断,但是稳定性增加的同时,运行时间也同时大幅......
  • KingbaseES RAC运维案例之---集群及数据库管理
    案例说明:KingbaseESRAC在部署完成后,进行日常的集群及数据库管理。适用版本:KingbaseESV008R006C008M030B0010操作系统版本:[root@node201KingbaseHA]#cat/etc/centos-releaseCentOSLinuxrelease7.9.2009(Core)集群架构:如下所示,node1和node2为集群节点:节点信息:......
  • 记录兼职运维的一天
    1.背景7月底部门的运维大哥离职了,奈何又没有新运维接替,至于为什么没有补位,懂得都懂,按老大的意思是先让开发一人顶一块,8月底争取补上。打心底我有点排斥这事,但是人到中年又有什么办法呢,上有老下有小,唯有苟。分派给我的部分是服务器漏洞的修复,小弟虽然懂几个linux命令但是在“漏......
  • Redis与接口自动化
    1.Redis与接口自动化测试框架的集成使用Python操作Redis需要导入相应的客户端库,例如:pip install redisimportredis2.初始化Redis连接在接口自动化测试框架的初始化过程中,可以添加连接Redis的代码,确保测试过程中能够与Redis建立连接classTestFramework......
  • Jenkins+gitlab+harbor+docker-compose自动化部署配置
    本文主要讲解Jenkins在Linux环境下实现自动化部署项目(提供一种思路)持续集成与持续部署(CI/CD)流程的实现,需要依赖一系列先进的工具和技术。这些工具不仅提高了开发效率,还确保了代码质量和发布的可靠性。以下是构建CI/CD流程所需的关键工具列表及其作用概述:Jenkins-作为自动化......
  • 2024 年了,IT 运维监控系统都有哪些推荐?
    大浪淘沙,2024年的今天,市面上很多监控系统慢慢淡出了大家的视野,而一些新的监控系统也逐渐崭露头角。今天我们就来看看2024年的当下,哪些IT运维监控系统最值得关注。Prometheus毫无疑问,Prometheus是最值得关注的监控系统,因为Prometheus的规范和生态都非常厉害,很多中间件、......
  • 【IEEE出版,华中科技大学主办】2024年电气工程自动化与信息处理国际会议(EEAIP 2024,9月2
    2024年电气工程自动化与信息处理国际会议(EEAIP2024)作为第四届能源、动力与电气工程国际学术会议(EPEE2024)的分会场,将于2024年9月20-22日在中国武汉举行。本届主会(EPEE2024)由华中科技大学主办,同时有着良好的举办历史:EPEE2021由东北电力大学主办,EPEE2022由华东交通大学......
  • 自动化测试面试点
    1. 封装自动化测试框架po页面对象层,用例层,元素定位层,测试数据层。  ----PO页面对象层(用例层从页面层调用操作方法,写成用例)其他的是:日志处理模块,ini配置文件读取模块,unittest+ddt数据驱动模块,jenkins持续集成---PO是PageObject模式的简称,它是一种设计思......
  • Java自动化测试框架-08 - TestNG之并行性和超时篇 (详细教程)
    一、并行性和超时您可以指示TestNG以各种方式在单独的线程中运行测试。可以通过在suite标签中使用parallel属性来让测试方法运行在不同的线程中。这个属性可以带有如下这样的值:二、并行套件(suites)如果您正在运行多个套件文件(例如“ javaorg.testng.TestNGtestng1.xml......
  • 【Linux】项目自动化构建工具-make/Makefile(入门初使用)
    make/Makefile1.什么是make/makefile?为什么要使用?2.如何使用make/makefile(1)makefile基础框架1.规则2.规则的实现(2)如何与make搭配使用?3.文件的时间戳4.常用语法补充语法一:.PHNOY文件名语法二:$@与$^语法三:makefile里面可以定义变量参考文章:爱编程的大丙......