服务器监控运维方案，一体化智能观测服务器状态

标签：状态运维一体化故障监控服务器告警

随着信息技术发展，服务器已经成为支撑各类应用系统的核心基础设施。业务数量的日益增长和稳定运行的高要求，也给服务器的稳定性与可靠性建立了更高的标准。然而，传统的服务器管理方式往往难以发现潜在问题，导致故障预警与处置的滞后，进而影响业务的正常运行。

北京智和信通服务器监控运维方案通过对服务器高效、实时的自动化监控和预警，及时发现并处理潜在问题，避免故障的发生或扩大，提升服务器运行效率和稳定性，保障业务的持续稳定运行。

第1章服务器监控范围与指标

智和信通方案采取主动轮询结合日志、事件分析的方式，在主动收集服务器性能数据的基础上，接收服务器发送的事件和日志信息，对服务器状态进行全面感知。

1.1.常见服务器类型和品牌

方案涵盖的服务器类型包括常规服务器、虚拟化服务器、云服务器、小型机、存储服务器、超融合服务器集群等，支持的操作系统包括Windows、Linux、Unix、Aix、Solaris、国产中标麒麟、银河麒麟、红旗Linux、鸿蒙系统、AliOS、SPGnux、Deepin、华为欧拉等。

目前，已实现对国内外常见服务器品牌，如：华为、H3C、锐捷、浪潮、联想、HP、IBM、DELL、中科曙光、深信服等，小众或较为老旧的品牌型号也可通过灵活可配的模型库进行扩展适配。

1.2.常见资源监测点和指标

方案通过带内和带外的方式对服务的硬件状态、系统状态和服务器上运行的应用、业务等进行监控。内置CPU、内存、网卡、磁盘、温度、电压、风扇等多种资源监测点和对应的监测指标，未覆盖的资源和指标也可以通过模型库不断进行拓展。

资源监测点	监测指标
基础信息	品牌、型号、序列号等
Ping	服务成功率、平均响应时间、丢包率、抖动等
CPU	使用率、线程数、进程数、会话数、频率、型号、主频、生产厂家、核数、一级缓存、二级缓存、三级缓存等
物理内存	使用率、可用内存大小、总内存空间、型号、类型、最大频率、生产厂家、部件号、序列号等
虚拟内存	使用率、可用内存大小、总内存空间等
硬盘	型号、序列号、生产厂家、固件版本、类型、转速、容量、出厂日期等
磁盘	状态、名称、磁盘序列号、使用率、可用空间、总磁盘空间、容量预测、磁盘I/O、磁盘队列长度、生产厂家、部件号、介质类型等
网卡	状态、序列号、生产厂家等
网络接口	状态、输入/输出流量、输入/输出带宽、输入/输出速率、丢包率、利用率、误码率等
进程	状态、ID、名称、路径、参数、系统进程数、运行进程数、空闲进程数、CPU占用率内存占用率等
主板	型号、序列号、固件版本、电压、温度等
通信端口	状态
服务	状态、名称、数量等
温度	健康状态、运行状态、实时温度值等
电源	健康状态、运行状态、电源功率、槽位号、序列号、冗余状态、型号、槽位号、固件版本、工作模式、输入模式等
风扇	健康状态、运行状态、转速、消耗功率、风扇利用率等
文件/文件夹	状态、大小、类型、修改、数量等

1.3.服务器品牌型号及指标扩展

方案采取用户自定义扩展服务器品牌、类型及其资源的方式，赋予用户强大的适配能力，最大可能地实现对不同时期、不同品牌、不同型号服务器的管控。

支持自定义服务器类型、服务器资源、故障监视器、性能监视器、TRAP监视器等，提供配置服务器模板的功能，允许用户自定义服务器真实面板图。

第2章服务器实时监控

服务器承载大量业务，若出现故障则极有可能导致业务的中断和数据的丢失，因此需要对服务器的各项性能指标进行实时监控，发现性能瓶颈和潜在的故障风险。

2.1.服务器图像化监控

2.1.1.自动发现服务器及其他设备

在网络可达范围内，仅需输入IP范围即可自动发现网络中的服务器及其他设备，识别其厂商、型号，生成资源逻辑拓扑或真实面板图，匹配故障与性能监视器，并自动发现服务器与交换机、服务器与其他设备直接的连接关系，生成可视化链路，通过可视拓扑动态展示服务器、链路的运行状态。

2.1.2.自动生成网络拓扑

方案以图形化方式系统展现网络拓扑关系，支持树形结构和平面结构的联动展示，也可以按片区、按地域、按层级等多种布局方式划分网络，在拓扑中以不同颜色图标、光效展现服务器的实时状态信息。

2.1.3.可视化展示服务器资源

在拓扑图的基础上，进一步展示服务器的细节，可以是其物理组件，也可以是用户定义的其他监控对象。提供资源逻辑拓扑，以图形方式展示内存、CPU、磁盘、进程、服务、电源、风扇、温度等资源信息，对服务器进行细化监控，实时告警，对设备进行事前管理，降低故障发生率。

2.1.4.智能监控链路

智能识别链路关系，支持自动发现或手动编辑服务器之间、服务器和其他设备之间的链路、运行状态、流量性能数据。通过直观的拓扑图帮助网络管理人员实时了解网络链接情况，配置情况及服务器运行情况。

支持展示上传流量、下载流量、状态、接收/发送数据包量、上传下载丢包率、包错误率、上传下载带宽使用率、连通状态、管理状态等。

2.2.服务器性能态势感知

实时监测并感知服务器的相关性能情况，多维度处理、分析、展示服务器性能态势，实现“可观、可管、可控”。

2.2.1.全面监控服务器性能

全面采集服务器的各项性能指标，如CPU使用率、内存使用率、磁盘空间、网络带宽、风扇状态、电源状态等，并可按照时间范围、资源类型、性能指标等多种维度，以图形、表格等多种形式进行展示。

2.2.2.实时、历史性能分析

对实时、历史性能数据进行统计分析，通过曲线图、柱状图或表格等形象化地展示，按天、星期、月查看性能指标变化。运维人员能随时把握服务器性能变化态势，防患于未然。

2.2.3.多服务器性能对比

支持选择多台服务器进行同维度性能数据分析，提供可视化性能对比视图，通过性能对比分析服务器性能变化趋势。

2.2.4.磁盘容量预测

通过智能算法分析磁盘容量历史数据，生成符合未来趋势的模拟数据和容量预测，并根据容量可使用时间进行自定义预警，优化资源规划。

2.3.日志与事件管理

接收服务器主动发送如服务器访问量、用户登录、用户注销、登录失败、操作系统启动、操作系统关键性停止、系统启动/重新启动、传感器故障、传感器恢复等事件与日志消息，集中存储、解析处理后，将错误、告警、攻击行为等异常信息及时地通知用户。通过统一界面集中管理事件与日志，提高其完整性和可追溯性，帮助用户快速定位问题并采取相应的解决措施。

2.4.故障告警与智能收敛

搭载多种告警机制，自定义配置告警阈值，具备主动的故障监控功能，从众多的事件和状态中，系统地将零散的状态信息，总结成为当前状态，并对异常状态进行告警，第一时间获取准确的告警信息，快速标示已执行操作的告警，迅速定位产生告警的服务器，提升告警处理效率，极大降低因服务器故障带来的损失。

告警管理采用自动去重、风暴抑制、关联聚合、维护期时间屏蔽、依赖屏蔽等多种智能告降噪机制，通过AI算法，对各类告警进行自动压缩收敛，减少90%的无效告警，抑制告警风暴，有效避免误报和漏报，直达故障根因。

2.5.服务器状态自动巡检

可自定义巡检策略，预设执行时间进行自动化巡检，定期巡查服务器实时运行状态，并向指定邮箱发送结果报告，把握网络运行中的易出现问题的环节，做到预防为先。可自行选择要统计的网络范围、服务器类型、资源类型、服务器支撑的业务、服务器关联的链路等生成巡检报表。

2.6.服务器流量透视

提供端到端的流量透视能力，从服务器主机、接口到服务、应用、会话等层级的实时流量监控和历史流量分析，识别带宽消耗较大的应用程序、服务、协议，避免网络容量过载，监控网络攻击和恶意流量，提升最终用户网络体验。

第3章服务器承载的业务状态拨测

针对服务器支撑的业务应用性能与用户体验进行检测分析，无需安装插件就可以为用户提供开箱即用的企业级主动拨测式业务监测。以拓扑形式展示每个业务流程中的每台相关设备，支持设备逻辑视图和面板视图，展示业务流程中涉及的所有的设备之间的链路关系，流程方向。

构建包含各业务整体流程的调用依赖关系图谱，展示业务部署中网络设备间多维度关系拓扑。对从业务的前台受理到真正完成的整个业务流程所依赖的业务应用、服务器、中间件、数据库、操作系统等进行实时监控分析，呈现业务各节点的实时运行状态，包括用户体验、节点可用性、节点负载等状态信息，快速定位业务瓶颈根因，并可根据用户自愈策略，触发自动运维实现故障自愈。

第4章统计报表和大屏展示

通过定义服务器相关数据报表的能力，实现服务器性能和状态的灵活展现和统计分析，通过同比、环比、TOPN等分析方式并结合报表排序规则、过滤规则等能力，周期自动生成报表，帮助用户更好地了解服务器的各项负载情况和运行态势，为优化资源配置和性能调整提供依据。

通过大屏展示核心运维数据态势，细粒度可达网络中服务器、服务器资源和链路。所有的网络故障与性能瓶颈都一目了然地呈现，大大降低了管理成本，同时也提高了运维人员处理故障的能力，节省的故障处理时间，为运维人员管理网络提供了可靠的保证。

第5章服务器远程控制和编排式配置

方案提供服务器远程控制的能力，采用“监控+运维+控制”的方式，将不同类型、不同型号、不同厂商的服务器统一纳入控制，集中管理。通过智能算法对服务器的资源配置进行智能动态调整，以便更高效地利用资源，降低能耗。

5.1.服务器远程配置执行

将周期性、重复性、规律性的大量日常服务器配置工作，如批量分发配置文件、一键开关机、进程管理、应用管理、配置SSL证书、限制远程访问、定期备份服务器数据等，转化为依托于平台的自动执行工作流，实现对服务器的批量、定时等自动化控制。

5.2.故障自愈以服务器磁盘爆满自动清理为例

以服务器实时监控和日志、事件管理为基础，动态发现网络故障，智能判断告警类型及级别，利用自动化故障诊断和修复能力，实现常规故障自动处置，特殊告警触发升级与工单，最终实现故障恢复，减少人工干预，提高运维效率。

下面以服务器磁盘爆满自动清理为例，介绍如何通过智和网管平台实现服务器故障自愈。

效果要求：当服务器磁盘使用率超过90%时，触发自动清理策略，释放磁盘空间。

第一步：将需要管理的服务器纳入平台进行监控，并将监视器设置为磁盘使用率超过90%进行严重级别告警。

第二步：进入安管模块的运维编排菜单，创建磁盘爆满自动清理策略。根据真实排障过程，通过进行策略节点拖拽编排的方式规划自愈流程。

第三步：配置触发方式。方式支持通过告警触发和通过时间触发两种方式进行，为实现故障自愈的效果，我们选择通过匹配告警的方式触发策略。

编排流程配置完成后，设备出现对应的严重级别告警后，立即触发磁盘清理策略，自动执行编排内的操作，对故障进行校验和处置。并在执行过程中，对每一步处置操作进行记录形成日志，确保有迹可循。

5.3.配置备份、对比与恢复

支持配置文件批量备份、下载、周期性备份、查看等，对服务器的多个备份文件进行对比。定期自动对服务器配置进行巡检备份，并可进行对比分析，为用户管理网络做出合理的建议提供数据支撑，支持进行已备份配置间的对比分析和针对性的配置恢复。

第6章服务器资产CMDB管理

通过构建服务器资产数据库，将服务器的信息包括资产编号、资产名称、品牌型号、来源、购买日期、硬盘容量、处理器、内存容量、机箱规格、负责人等信息以及维保到期时间、维保单位等维保信息统一管理。

动态感知纳入监控的服务器运行状态，并以图谱的方式呈现服务器与其他资产、配品配件、机房、机柜、网络链路、使用人等静态关联关系。

第7章服务器运维工作全面无纸化

结合服务器运维工作，如服务器采购、维修、更换等业务需求场景，自定义工单模板内的字段，并对字段排序进行调整，使工单根据业务的不同更加贴合用户实际使用情况。将服务器运维相关工作全面转为无纸化办公，简化运维工作流程，在每个处理流程的节点上责任到人。

第8章应用价值

北京智和信通服务器监控运维方案为用户提供了一个全面而高效的工具，以管理其IT基础架构，帮助用户日常运维工作效率大幅提升。通过数据分析报告用户可以深入了解服务器的运行状态和系统性能，从而最大化地挖掘和利用服务器的价值，避免资源不必要的浪费。

通过此方案的实施实现对服务器的实时监控，运维团队能够及时获取硬件状态、系统性能和网络连接等关键信息，整体运维工作从传统的被动响应模式转变为积极主动的预防策略。一旦系统检测到异常信息，便会立即触发告警机制，并结合自动化运维能力，快速实现故障自愈。这种转变不仅显著减少了因系统故障导致的宕机时间，也极大地降低了上层业务中断的风险。通过保障企业的业务连续性，为用户避免因业务中断而可能造成的经济损失。

此外，方案还具备强大的扩展性和灵活性，能够轻松应对企业不断变化的服务器管控需求。随着企业业务的快速发展，服务器数量和规模也会不断增长，而此方案可以通过简单的配置和扩展，保持对服务器的持续监控。

同时，方案还提供了丰富的自定义功能，用户可以根据自己的实际需求和业务特点，定制个性化的监控指标、告警规则、报告内容等，从而更好地满足差异化运维需求。这种灵活性使得方案能够广泛应用于不同行业、不同规模的用户，帮助用户实现更加高效、可靠的服务器监控运维管理。

总体而言，北京智和信通服务器监控运维方案不仅提供了全面的服务器监控功能，还具备强大的自动化运维和故障自愈能力，能够帮助用户实现更加高效、可靠的服务器运维管理。

标签：状态,运维,一体化,故障,监控,服务器,告警
From： https://www.cnblogs.com/zhtelecom/p/18211500

服务器监控运维方案，一体化智能观测服务器状态

相关文章

赞助商

阅读排行