首页 > 其他分享 >云平台和虚拟化智慧运维监控,全面提升故障感知与处置能力

云平台和虚拟化智慧运维监控,全面提升故障感知与处置能力

时间:2024-09-29 11:49:39浏览次数:10  
标签:运维 虚拟化 虚拟机 监控 磁盘 感知 CPU

        随着云计算、大数据技术等发展,虚拟化的普及不断深入,已成为现代IT基础设施建设中不可或缺的组成部分,成为推动企业数字化转型的关键力量。虚拟化的应用在降低软硬件成本和复杂性的同时,如何保障虚拟环境的高效运行,也给运维人员带来了更大的挑战。

        北京智和信通虚拟化监控运维方案通过对虚拟化环境的实时监控和深入管理,提高对虚拟化故障的感知、分析、解决能力,保障其性能高可用和环境的稳定。

第1章 灵活的虚拟化监控方式

        方案提供两种方式对虚拟机进行监控,一种是作为宿主机的虚拟机资源进行监控,另一种是将其作为真实主机(操作系统)进行监控。两种监控方式均通过主动轮询和日志解析的方式监测虚拟机的常见性能,不同方式的监控范围和内容有所差异。

1.1.作为宿主机的虚拟机资源监控

        对宿主机可实现如Ping服务成功率、Ping平均响应时间、CPU使用率、内存使用率、磁盘使用率、虚拟机(数量、清单、操作系统)、网络接口流量带宽等指标的监控。

对虚拟机资源可实现如CPU使用率、内存利用率、磁盘容量,磁盘使用率、网络流量等监控;在控制方面可以对虚拟机可以进行重启、备份、镜像等操作。

1.2.作为真实的主机(操作系统)监控

        在此种方式下,根据虚拟机所安装的操作系统来进行监控和控制,支持的监控指标和控制能力和对操作系统的监控相同。

        监控指标包括ping、CPU使用率、内存使用率、磁盘使用率、网口流量带宽、进程、服务、TCP连接数、端口等。控制能力包括一键开关机、重启、进程管理、应用管理、容量管理等。

第2章 丰富的虚拟化监控范围与指标

        方案以实时监控和可视化呈现为核心,通过高精准的数据采集和智能数据分析处理机制,实现对虚拟化环境的全面监测和秒级故障预警。

2.1.虚拟化监控模型及指标扩展

        资源监控是对虚拟化环境进行运维管理的关键,方案通过构建对VMware、Xenserver、Hyper-V、KVM、K8s(Kubernates)等关键指标的监控,帮助运维人员了解虚拟机的工作负载定位其性能瓶颈,并采取相应措施优化其性能。

        同时采取用户自定义扩展虚拟化类型、版本及其资源的方式,赋予用户强大的适配能力,其他虚拟化也可通过灵活可配的模型库进行扩展适配,最大可能地实现对不同品牌、不同版本虚拟化的管控;支持自定义虚拟化类型、虚拟化资源、故障监视器、性能监视器、TRAP监视器等。

2.2.常见虚拟机监测点和指标

        本方案通过主动轮询和日志解析的方式对虚拟机常见性能指标,如响应时间、CPU使用率、内存使用情况、磁盘IO性能以及网络吞吐量等进行监控,同时除内置的常见指标外,其他资源和指标也可以通过模型库不断进行拓展。

监控目标

资源监测点

监测指标

宿主机

基础信息

品牌、名称、版本等

Ping

连接状态、响应时长、服务成功率等

CPU

CPU使用量、CPU使用率等

内存

内存使用率、活动内存、内存总量等

磁盘

磁盘使用率、磁盘总容量、磁盘读IO、磁盘写IO、磁盘读速率、磁盘容量预测等

网口接口

接收/发送流量、接收/发送数据包数量、接收/发送丢包率、接收/发送速率等

虚拟机

虚拟机清单、运行的虚拟机个数、关闭的虚拟机个数、其他状态的虚拟机个数等、CPU、内存、磁盘等

虚拟机

基础信息

操作系统、电源状态等

Ping

连接状态、响应时长等

CPU

CPU使用量、CPU使用率、CPU个数等

内存

内存使用率、活动内存、内存总量等

磁盘

磁盘使用率、磁盘总容量、磁盘读IO、磁盘写IO、磁盘读速率、磁盘容量预测等

网口接口

接收/发送流量、接收/发送数据包数量、接收/发送丢包率、接收/发送速率等

进程

状态、ID、名称、路径、参数、系统进程数、运行进程数、空闲进程数、CPU占用率 内存占用率等

文件系统

状态、总空间、剩余空间、文件类型、文件修改、文件数量等

 

第3章 虚拟化实时监控和预警管理

        针对各类虚拟化场景建立全面的监控运维体系,深入监控其内部资源和整体运行状态,提升虚拟化环境可靠性,保障业务系统稳定运行。

3.1.自动发现虚拟化设备

        智和信通具备独特的自动发现技术,在网络可达范围内,仅需输入IP范围即可自动发现网络中的宿主机和虚拟机,识别虚拟机类型、版本、操作系统等信息,获取宿主机和虚拟机内部资源,匹配故障与性能监视器,并自动发现虚拟机与其他设备的连接关系,生成可视化链路,通过可视拓扑动态展示虚拟化、链路的运行状态。

3.2.自动生成网络拓扑

        方案以图形拓扑的形式展现虚拟机在网络中和其他设备间的拓扑关系,支持树形结构和平面结构的联动展示,也可以按片区、按地域、按层级等多种布局方式划分网络,在拓扑中以不同颜色图标、光效展现虚拟化的实时状态信息。

        在拓扑图的基础上,进一步展示虚拟化的内部细节,以图形方式展示虚拟机CPU使用率、内存使用情况、磁盘IO性能以及网络吞吐量等关键指标,对虚拟机进行细化监控,实时告警,事前管理,降低故障发生率。

3.3.虚拟机性能态势感知

        全面采集虚拟机的各项性能指标,如CPU使用率、CPU就绪时间、内存使用量、内存页交换率、磁盘读写请求、磁盘延迟时间与队列长度、网络接口的吞吐量、包传输错误以及丢弃包等,并按照时间范围、资源类型、性能指标等多种维度,以图形、表格等多种形式进行展示。

        对实时、历史性能数据进行统计分析,通过曲线图、柱状图或表格等形象化地展示,按天、星期、月查看性能指标变化。运维人员能随时把握虚拟化性能变化态势,防患于未然。

        方案支持选择多台虚拟机进行同维度性能数据分析,提供可视化性能对比视图,通过性能对比分析虚拟机性能变化趋势。

3.4.虚拟机自动巡检

        可自定义虚拟机的巡检策略,预设时间自动执行虚拟机巡检,定期巡查虚拟机实时运行状态,并向指定邮箱发送结果报告,可自行选择要统计的虚拟机所属网络、虚拟机类型、虚拟机资源、虚拟机支撑的业务、虚拟机关联的链路等范围类型,生成巡检报表。

3.5.日志与事件管理

        接收虚拟机主动发送如非正常关机、意外重启、内存管理错误、进程调度问题、服务无法正常启动、应用程序异常终止、应用运行错误、登录失败、权限变更等事件与日志消息,集中存储、解析处理后,将错误、告警、攻击行为等异常信息及时地通知用户。

        通过实时监控虚拟机的日志和事件信息,运维人员能够准确得知虚拟机资源的使用情况、用户行为、应用程序错误、系统故障等关键信息,在统一界面集中管理,及时发现和解决虚拟机故障、观察系统运行情况、预测系统的使用情况,作为性能瓶颈和故障排查的重要依据,帮助运维人员更好地维护和管理虚拟化环境。

3.6.故障告警与智能收敛

        搭载多种告警机制,自定义配置告警阈值,具备主动的故障监控功能,从众多的事件和状态中,系统地将零散的状态信息总结成为当前状态,并对异常状态进行告警,第一时间获取准确的告警信息,快速标示已执行操作的告警,迅速定位产生告警的虚拟机,提升告警处理效率,极大降低因虚拟化故障带来的损失。

        告警管理采用自动去重、风暴抑制、关联聚合、维护期时间屏蔽、依赖屏蔽等多种智能告降噪机制,通过AI算法,对各类告警进行自动压缩收敛,减少90%的无效告警,抑制告警风暴,有效避免误报和漏报,直达故障根因。

第4章 虚拟机承载的业务状态拨测

        针对虚拟机所支撑的业务应用性能与用户体验进行检测分析,无需安装插件就可以为用户提供开箱即用的企业级主动拨测式业务监测。以拓扑形式展示每个业务流程中的每台相关设备,支持设备逻辑视图和面板视图,展示业务流程中涉及的所有的设备之间的链路关系,流程方向。

        构建包含各业务整体流程的调用依赖关系图谱,展示业务部署中网络设备间多维度关系拓扑。对从业务的前台受理到真正完成的整个业务流程所依赖的业务应用、虚拟化、操作系统等进行实时监控分析,呈现业务各节点的实时运行状态,包括用户体验、节点可用性、节点负载等状态信息,快速定位业务瓶颈根因,并可根据用户自愈策略,触发自动运维实现故障自愈。

第5章 统计报表和大屏展示

        通过定义虚拟机相关数据报表的能力,实现虚拟机性能和状态的灵活展现和统计分析,通过对比、TOPN等分析方式并结合报表排序规则、过滤规则等能力,周期自动生成报表,帮助用户更好地了解虚拟机的各项负载情况和运行态势,为优化资源配置和性能调整提供依据。

        通过大屏展示核心运维数据态势,细粒度可达网络中虚拟机、虚拟机资源和链路。所有的网络故障与性能瓶颈都一目了然地呈现,大大降低了管理成本,同时也提高了运维人员处理故障的能力,节省的故障处理时间,为运维人员管理网络提供了可靠的保证。

第6章 虚拟机远程控制和编排式配置

        方案提供虚拟机远程控制的能力,采用“监控+运维+控制”的方式,将不同系统、不同版本的虚拟机统一纳入控制管理。通过智能算法对虚拟机的资源配置进行智能动态调整,当虚拟机出现性能瓶颈时,自动调优资源配置,优化虚拟机运行环境,当虚拟机发生故障时,自动启动自愈机制,快速恢复虚拟机的正常运行。

6.1.虚拟机远程配置执行

        将周期性、重复性、规律性的大量日常虚拟机维护工作,如一键开关机、重启、备份、镜像、进程管理、应用管理、容量管理等运维工作,转化为依托于平台的自动执行工作流,实现对虚拟机的批量、定时自动化控制管理。

6.2.运维编排──以(VMware ESXi虚拟机磁盘扩容为例)

        以虚拟机实时监控和日志、事件管理为基础,通过多指标聚合检测动态识别虚拟机运行状态,根据真实运维场景和流量编排自动化运维作业流程,减少人工干预,提高运维效率。

下面以VMware ESXi虚拟机磁盘扩容为例,介绍如何通过智和网管平台实现虚拟机运维编排。

效果要求:当虚拟机磁盘容量不足时,进行告警提示,运维人员可在核验后一键进行虚拟机磁盘扩容。

        第一步:将需要管理的虚拟机纳入平台进行监控,并设置虚拟机磁盘容量监视器,虚拟机磁盘空闲率小于10%时进行告警。

        第二步:进入安管模块的运维编排菜单,创建【VMware ESXi虚拟机磁盘扩容】策略。根据真实虚拟机磁盘扩容过程,通过进行策略节点拖拽编排的方式规划扩容流程。

        第三步:配置触发方式。策略支持自动触发和手动触发两种方式,根据用户实际运维场景和工作流程,本策略适宜选择手动触发的形式进行虚拟机磁盘扩容。

        编排流程配置完成后,当出现虚拟机磁盘空闲率告警时,用户手动触发策略对告警进行校验,如空闲率低于预设阈值,则自动进行磁盘扩容。并在执行过程中,对每一步处置操作进行记录形成日志,确保有迹可查。

第7章 应用价值

        北京智和信通虚拟机监控运维方案,通过集中运维的功能,将分布在不同物理服务器上的虚拟化环境进行统一管理,在全量监控的同时,简化运维流程、降低运维难度。运维人员可以在智和网管平台的统一界面上,实时监控虚拟环境的运行状态,并进行性能调优、故障排查等操作,大大提高工作效率。

        通过方案的实施实现对虚拟化环境的深入监控,运维团队能够及时获取虚拟机状态、系统性能等关键信息,整体运维工作从传统的被动响应模式转变为积极主动的预防策略。一旦系统检测到异常信息,便会立即触发告警机制,并结合自动化运维能力,快速实现故障自愈。这种转变不仅显著减少了因虚拟机故障导致的宕机时间,也极大地降低了上层业务中断的风险。

        得益于方案强大的监控模型能力,不仅可以将虚拟机作为宿主机的资源进行管理,也可以将其作为独立的服务器进行运维。这样一来就给虚拟机的监控和控制提供了更多的可能,如自动化部署、磁盘扩容、备份恢复等等,进一步降低运维成本,释放设备价值。

        同时,通过对虚拟化环境的精确监管、全面覆盖的功能、智能化的运维编排和强大的模型扩展能力,智和信通虚拟化监控运维方案正在成为越来越多用户优化IT运维、提升业务连续性的选择。

 

标签:运维,虚拟化,虚拟机,监控,磁盘,感知,CPU
From: https://www.cnblogs.com/zhtelecom/p/18439382

相关文章

  • Java Deeplearning4j:构建和训练多层感知器(MLP)模型
    ......
  • 01. 感知层环境安装
    1.软件以及驱动的安装安装ZigBee无线网络节点开发平台IAREmbeddedWorkbench(简称EW)安装串口驱动(CH340芯片)。点击安装64位的。后续就可以使用串口对开发板进行调试。仿真器驱动程序(用来烧录代码)的安装。安装串口工具(XCOM)。2.IAR创建工程打开安装的IAR软件,点击......
  • d2l-ai深度学习日记(三)-多层感知机
     前言:这个博客《d2l-ai深度学习日记》将记录我在深度学习领域的学习与探索,特别是基于《动手学深度学习》这本经典教材的学习过程。在这个过程中,我不仅希望总结所学,还希望通过分享心得,与志同道合的朋友一起交流成长。这不仅是对知识的沉淀,也是我备战研究生考试、追逐学术进阶......
  • 云原生之运维监控实践-OpenEuler22.03SP3上安装Prometheus与Grafana实现主机状态监测
    背景如果没有监控,那么最好的情况是没有问题发生,最糟糕的情况则是问题发生了但没有被发现。——《Prometheus监控实战》去年写了一篇在Docker环境下部署若依微服务ruoyi-cloud项目的文章,当时使用的是docker-compose在单台机器上部署若依微服务ruoyi-cloud项目;在这个......
  • AI驱动的智能运维:行业案例与挑战解析
    华为、蚂蚁、字节跳动如何引领智能运维?©作者|潇潇来源|神州问学引言OpenAI发布的ChatGPT就像是打开了潘多拉的魔盒,释放出了生产环境中的大语言模型(LLMs)。一些新的概念:“大语言模型运维(LLMOps)”、“智能运维平台(AIOps)”也随之迸发和迭代。与传统运维方法相比,这......
  • Linux云计算和云计算运维有何不同?
    Linux云计算和云计算运维对于很多人来讲并不陌生,而且它们都涉及到云计算技术,那么二者之间有何区别?主要区别在于职责、技能要求、工作领域和发展趋势,接下来通过这篇文章来看看吧。职责与技能要求:Linux云计算的工作内容主要包括公司运维团队和运维系统的建设,制定并不断......
  • 17 shutil 模块 文件操作 运维时会使用此模块
    4.2shutil模块文件操作运维时会使用此模块importshutil#删除目录常用返回值为None#shutil.rmtree('test')#重命名常用#shutil.move('test','ttt')#压缩文件#shutil.make_archive('zzh','zip','D:\code\s21day16\lizhong&......
  • 03 sys.argv 运维使用比较多
    sys.argv运维使用比较多获取用户执行脚本时,传入的参数,将执行空格后的路径,进行append到一个列表让用户执行脚本传入要删除的文件路径,在内部帮助用完后将目录删除#!/usr/bin/envpython#-*-coding:utf-8-*-"""让用户执行脚本传入要删除的文件路径,在内部帮助用将目录删除......
  • Linux服务器运维管理面板1Panel快速安装及安全配置
    1Panel是一个现代化、开源的Linux服务器运维管理面板,旨在帮助运维人员简化服务器管理任务。它提供了直观的界面和强大的功能,使用户可以通过图形化操作界面对服务器进行管理,减少了对命令行的依赖。1Panel支持多种操作系统,适用于Linux服务器,提供了如网站管理、数据库管理、安......
  • Oracle日常运维(一线DBA必备技能)(四)-综合巡检
    Listitem在Oracle数据库日常维护中,定期巡检以确保数据库的健康和性能,本文结合我自身经验,总结了些常用并且能够真实反应DB健康状况的项目,并附上相应的巡检SQL语句和脚本,供大家参考。综合巡检项目(可配置定期自动化任务):检查DB实例状况,保证数据库正常的运行;检查数据库的存储......