首页 > 其他分享 >某塑料科技公司网络与机房监控运维项目

某塑料科技公司网络与机房监控运维项目

时间:2024-05-06 15:46:43浏览次数:24  
标签:运维 机房 监控 告警 使用率 CPU 设备

        某塑料科技公司是由日本知名株式会社在中国投资的,以从事橡胶和塑料制品业为主的生产制造企业。随着企业信息化建设提速,信息化运用程度不断提高,对网络基础设施的管理也提出了更高要求,因此公司急需上线一款综合运维平台加强对整体网络的管理和维护。

项目现状

        随着公司向智能制造转型,网络架构日趋复杂,支撑公司网络通信和业务开展的软硬件IT设施种类繁多,给运维工作造成极大压力。

设备类型:交换机、路由器、POE交换机、服务器、AC、AP、数据库、防火墙、虚拟机、语音网关、硬盘录像机、行为管理、光端机、打印机、动环监控等

设备品牌:H3C、华为、ARUBA阿鲁巴、HP、Lenovo、海康威视、飞塔、深信服、Cisco、国威、Windows Server、MySQL、PostgreSQL、SQL Server、Oracle、富士等

项目期望:

  • 对网络中的所有网络设备、虚拟机、数据库等进行统一管理,并提供清晰的网络拓扑图;
  • 对设备进行实时监控,在出现故障时可以及时预警;
  • 解决告警数量多,误报、错报情况严重,无法获取真实故障信息的问题;
  • 解决设备产生的trap日志存储展示分散,难以查看的问题;
  • 解决目前巡检主要依靠人工进行的问题,提高巡检效率和准确率;
  • 具有美观、清晰的界面和大屏,大屏支持上墙;
  • 能够和动环系统进行对接。

智和信通方案

        通过多次沟通了解到其网络内的设备种类、品牌型号均比较复杂,用户对设备监控运维的期待也较高,因此智和信通采用远程+现场支持的方式进行安装部署与支持,最终达成用户期待的效果。

自动发现异构设备并生成网络拓扑图

        智和信通充分利用产品自身强大的模型库配置能力,在现有的监控模型基础进行丰富,快速实现了对用户全部品牌、型号设备的纳管。在项目部署过程中,仅需输入IP地址,即实现了设备发现与类型、品牌型号的识别,并自动搜索出相应的设备资源与设备间的链接关系,自动生成网络拓扑。

更细节的设备监控指标支持

        智和信通对现有指标进行快速调整并根据用户需要新增了大量用户关注的核心指标,以满足用户对监控阈值、监控周期的需求。部分监控指标如下:

设备类型

监控指标

交换机/路由器

在线状态、响应时间、运行时间、CPU使用率、内存使用率、接口接收/发送流量、接口接收/发送带宽、接口接收/发送丢包率等

POE交换机

在线状态、电源状态、响应时间、运行时间、CPU使用率、内存使用率、端口状态、端口流量、光口、电口、语音口、包转发率等

服务器

在线状态、响应时间、CPU使用率、内存使用率、磁盘使用率、磁盘容量预测、进程、接口接收/发送流量等

AC

在线状态、响应时间、CPU使用率、内存使用率、接口接收/发送流量、射频传输重传帧比率、当前连接用户数、当前断开连接用户数等

AP

在线状态、接口接收/发送流量、关联的站点总数、关联失败的站点总数、用户在线时间等

数据库

在线状态、连接数、并发连接数、最大连接数、表空间、死锁等

防火墙

在线状态、CPU使用率、内存使用率、接口接收/发送流量、接口接收/发送速率、HTTP请求数、错误率等

虚拟机

在线状态、CPU使用率、内存使用率、磁盘读写IO、磁盘读写速率、网络接收/发送速率等

硬盘录像机

在线状态、CPU使用率、内存使用率、磁盘使用率、磁盘容量预测、

行为管理

在线状态、CPU使用率、内存使用率、活跃用户数、上线用户数等

差异呈现设备核心性能指标,感知设备运行态势

        为不同类型和应用场景下的设备创建差异化性能指标,全面采集、存储、分析性能信息,并按照时间、资源、性能类型等多种维度,图形、表格等多种形式展示实时性能和历史性能。通过智能算法分析历史数据,对磁盘容量、交换机端口容量、机房机柜容量进行展示和预测分析,并根据容量可使用时间进行自定义预警。

事件、日志集中治理,异常告警

        全面收集设备发送的Trap、Syslog、Filter Alarm等事件、日志数据,解析、提取有效信息,将其存储、展示为可统计分析的结构化数据,通过配置告警规则和场景,将异常事件、日志自动转化为告警,定位其影响范围。

深入分析、处理异常故障信息,精确告警

        自定义配置告警阈值,并从众多的事件、日志和状态信息中分析提炼异常数据并转化为告警。在告警信息产生后,采用自动去重、风暴抑制、关联聚合、维护期时间屏蔽、依赖屏蔽等多种智能告警降噪机制,对各类告警进行自动压缩收敛,减少无效告警,一步定位发生故障的源头设备。快速检索异常问题关联涉及的各项维度与影响范围,快速定位问题边界,直达故障根因。

        提供界面颜色、提示声、光效闪烁、信息列表、Email、短信、钉钉、企业微信、个人微信等多种通知渠道。

自动化巡检、全面解放人力

        根据用户日常运维工作流程自定义巡检策略,对设备的运行情况进行统计和报表生成。通过平台内人工触发或定时触发的方式,将巡检工作托管至平台自动执行,减少人工干预,实现对设备的定期快速检查。

大屏上墙运维信息更集中

        在实施的过程中,仅通过智能电视上的安卓浏览器访问平台,即实现运维大屏上墙,直观清晰地传达运维数据分析结果,帮助用户由宏观到微观更快地了解网络运维现状,做出更具时效性的决策。

无缝对接用户现有动环系统,实现联合监控

        用户现场已在使用某厂商的动环监控系统,智和信通采取快速对接的方式打通和此系统间的数据流转。在智和信通平台内接收温度、湿度、漏水、烟感、配电、UPS、空调等设备的实时状态信息,并对异常数据进行清洗、告警。

应用价值

        在项目的实施过程中,我们清晰地感知到纳入方案中监管的IT软硬件设施支撑着用户上层众多的,如品控、防错料、文件管理、合同管理、薪资、预算、人事等业务系统,网络的状态强烈影响着用户业务系统的可用性和性能,最终也将影响整体企业的办公体验。

        通过部署智和信通综合监控运维方案实时监控用户网络与机房内大量异构的交换机、路由器、服务器、AC/AP、数据库、防火墙、虚拟机、语音网关、硬盘录像机、行为管理等设备,及时发现并预警潜在问题,从而避免或减少故障带来的负面影响。同时,通过快速对接现有动环系统的方式,实现机房动力、环境系统的补充监控,保障机房运行的物理安全和环境稳定。

 

标签:运维,机房,监控,告警,使用率,CPU,设备
From: https://www.cnblogs.com/zhtelecom/p/18175106

相关文章

  • 进程监控神器Supervisor 转载
    作者:Ais137https://juejin.cn/post/73544069807843737981.概述Supervisor是一个C/S架构的进程监控与管理工具,本文主要介绍其基本用法和部分高级特性,用于解决部署持久化进程的稳定性问题。2.问题场景在实际的工作中,往往会有部署持久化进程的需求,比如接口服务进程,又或者......
  • 每台服务器都有错包增长,线路问题?交换机问题? 机房里面有鬼?
    服务器网卡RX方向errors包一直在增长,换模块换尾纤都不好使,眼看业务上线要延期客户精神要崩溃,运维心想要遭罪一、问题现象服务器侧的运维人员在服务器上使用ifconfig命令发现每台服务网卡上都有错包,且一直在不停增长通过图片可以看到网卡RX方向有大量的errors包,服务器......
  • C# 使用ffmpeg读取监控视频流
    编译环境VisualStudio2022.NetFramework4.7.2x64需要开启允许不安全代码(项目属性->生成->允许不安全代码)之前使用OpenCVSharp写的一个拉流,在服务器上跑不起来。于是换了这个使用FFmpeg.AutoGen的。参考博文:用C#做一个拉流播放器-摇光Summer-博客园(cnblogs.com)......
  • 开源运维监控平台【WGCLOUD】的调研报告 2024
    WGCLOUD是一款开源免费的运维监控软件,具有设计严谨,功能丰富,部署简单,上手学习容易,性能优秀,免费开源开放等特点网站下载:www.wgstart.com1、WGCLOUD可以监控各种主机,包括物理机、实体机、虚拟机、云主机、VPS等主机或者服务器监控指标数据包括:操作系统信息,主机IP,主机名称,MAC地址,进......
  • Linux 使用 inotify 监控文件或目录变化
    转载:https://www.cnblogs.com/PikapBai/p/14480881.html作者:PikapBai 1运行环境#操作系统:Ubuntu182inotify简介#inotify是一个Linux内核特性(监视文件系统事件),它用于监控文件系统,比如删除、读、写操作等,当发生对应事件时,则会触发inotify。当监控目录时,与该目录......
  • 从零搭建Prometheus监控报警系统
    从零开始搭建Prometheus自动监控报警系统 从零搭建Prometheus监控报警系统什么是Prometheus?Prometheus是由SoundCloud开发的开源监控报警系统和时序列数据库(TSDB)。Prometheus使用Go语言开发,是GoogleBorgMon监控系统的开源版本。2016年由Google发起Linux基金会旗......
  • Linux课程机房虚拟机
    Linux课程机房虚拟机机房虚拟机(默认不能联网的):百度网盘:https://pan.baidu.com/s/1WqSvqB3Y7b_D4690CDBlJA?pwd=augc123网盘:https://www.123pan.com/s/tQ0UVv-LiolA.html提取码:F4xm‍联网使用说明:虚拟机->设置->网络适配器->已连接->重启虚拟机​​‍......
  • 【网络自动化运维】使用pythonping检查设备的连通性并记录可达设备(eNSP模拟器)
    实验拓扑:PC的IP地址和五台交换机的地址在同一网段,具体IP如图所示。现在保证直连网络能够通信,并且故意将SW5的接口shutdown掉,保证无法联通,作为对照的测试设备。在PC上运行python代码,测试与五台交换机的连通性。由于本次测试使用的是pythonping模块,这并不是python自带的模块,需要......
  • Linux 性能监控工具
    在Linux系统中有很多流行且经常使用的系统资源监控工具,例如:vmstat、netstat、iostat、ifstat和mpstat,这些工具可用于监控不同系统组件的统计信息,包括:虚拟内存、网络连接和接口、CPU、输入/输出设备等。dool是一款功能强大且灵活的多功能命令行工具,除了提供上述工具提供......
  • 一款现代化、高颜值的一站式智能运维管理平台
    大家好,我是Java陈序员。之前给大家介绍了一个简单好用安全的开源交互审计系统。推荐一款轻量级堡垒机系统让你防护“rm-rf删库跑路”今天,又给大家安利一款现代化、高颜值的一站式智能运维管理平台。关注微信公众号:【Java陈序员】,获取开源项目分享、AI副业分享、超200本经......