首页 > 其他分享 >交换机统一监控和远程控制:自动发现、自动监控、自动告警、自动修复

交换机统一监控和远程控制:自动发现、自动监控、自动告警、自动修复

时间:2024-04-30 10:44:32浏览次数:25  
标签:状态 配置 交换机 自动 监控 告警

        交换机在网络架构中占据重要位置,连接各种设备和系统起到桥梁的作用,控制数据流动,使网络数据传输更加稳定高效。因此,交换机的状态必将影响网络的可靠性和可用性。

        北京智和信通交换机管控方案统一纳管网络中不同类型、不同品牌、不同型号的交换机,通过远程监控、远程配置等技术,实现交换机自动检测、自动报警、自动修复等功能,并通过形象化的虚拟场景和真实数据相结合,动态感知交换机的运行态势,通过对交换机的有效监控和管理,提升网络的运行效率,保障网络稳定。

第1章 交换机监控指标

        方案可对各个品牌、型号交换机的统一监管,获取最新运行状态。目前,已实现对国内外常见交换机品牌,如:华为、H3C、思科、锐捷、中兴等,小众或较为老旧的品牌型号也可通过灵活可配的模型库进行扩展适配。

1.1.常见监控指标

        内置端口、带宽、吞吐量、流量、丢包率、错误包、运行状况等多种资源监测点和监测指标,未覆盖的资源和指标也可以通过模型库不断进行拓展。

设备类型

资源监测点

监测指标

交换机

Ping

状态

平均响应时间(ms)

抖动(ms)

……

设备运行时间

交换机本次启动后运行时间

……

电源

电源状态

……

风扇

风扇状态

风扇编号

转速(转/s)

……

温度

温度状态

当前温度(℃)

CPU

CPU大小

CPU使用率(%)

CPU空闲

……

内存

内存大小

内存使用率(%)

空闲内存

……

 网络接口

状态(up、down)

广播包(包/秒)

每秒发送数据包(个/s)

每秒接收数据包(个/s)

发送包错误率(%)

接收包错误率(%)

发送丢包率(%)

接收丢包率(%)

接收带宽使用率(%)

发送带宽使用率(%)

发送流量(Kbit/s)

接收流量(Kbit/s)

误码率(%)

……

光口

状态(up、down)

广播包(包/秒)

发送光功率(dBm)

接收光功率(dBm)

每秒发送数据包(个/s)

每秒接收数据包(个/s)

发送包错误率(%)

接收包错误率(%)

发送丢包率(%)

接收丢包率(%)

接收带宽使用率(%)

发送带宽使用率(%)

发送流量(Kbit/s)

接收流量(Kbit/s)

误码率(%)

……

1.2.交换机品牌型号及指标扩展

        方案采取用户自定义扩展交换机品牌、类型及其资源的方式,赋予用户强大的适配能力,最大可能地实现对不同时期、不同品牌、不同型号交换机的管控。支持自定义交换机类型、交换机资源、故障监视器、性能监视器、TRAP监视器等,提供配置交换机模板的功能,允许用户自定义交换机真实面板图。

 

第2章 交换机实时监控

        方案通过智能算法自动发现网络中心、汇聚、接入层交换机以及交换机间、交换机和其他设备间的链路关系,实时监控交换机的各项运行指标。

2.3.可视化监控

2.3.1.一键式自动发现

        在网络可达范围内,自动获取网络中的交换机及其他设备,识别设备间的连接关系。智能识别交换机的厂商、型号,生成资源逻辑拓扑或交换机面板图,匹配故障/性能监视器,通过可视拓扑动态展示交换机、链路的运行状态。

2.3.2.自动生成网络拓扑

        方案以图形化方式系统展现网络拓扑关系,支持树形结构和平面结构的联动展示,也可以按片区、按地域、按层级等多种布局方式划分网络,在拓扑中以不同颜色图标展现交换机的实时状态信息。

2.3.3.可视化展示资源

        在拓扑图的基础上,进一步展示交换机的细节,可以是其物理组件,也可以是用户定义的其他监控对象。提供资源逻辑拓扑,以图形方式展示内存、CPU、端口、光口、电源等资源信息,对交换机进行细化监控,实时告警,对设备进行事前管理,降低故障发生率。

2.3.4.交换机真实面板图

        提供交换机真实面板图,展现网口、板卡、光口、灯、电源、风扇等交换机面板信息。

2.3.5.智能识别链路

        智能识别链路关系,支持自动发现或手动编辑交换机之间、交换机和其他设备之间的链路、运行状态、流量性能数据。通过直观的拓扑图帮助网络管理人员实时了解网络链接情况,配置情况及设备运行情况。

支持展示上传流量、下载流量、状态、接收/发送数据包量、上传下载丢包率、包错误率、上传下载带宽使用率、连通状态、管理状态等。

 

2.3.6.智能搜索下挂设备

        通过多种智能发现算法,自动搜索发现交换机、AP等连接的下挂设备,分析下挂设备的IP、MAC、端口等信息。自动生成拓扑视图,简化添加删除等操作,提升管理效率。

2.4.多维度性能态势感知

        实时监测并感知交换机的相关性能情况,多维度处理、分析、展示交换机性能态势,实现“可观、可管、可控”。

2.4.1.全面采集交换机性能

        全面采集交换机的资源、应用、服务等性能信息,支持按照时间、资源、性能类型等多种维度,图形、表格等多种形式展示交换机资源、应用、服务等性能信息。

2.4.2.实时、历史性能分析

        对实时、历史性能数据进行统计分析,通过曲线图、柱状图或表格等形象化地展示,按天、星期、月查看性能指标变化。运维人员能随时把握交换机性能变化态势,防患于未然。

2.4.3.多交换机性能对比

        支持选择多个交换机进行同维度性能数据分析,提供可视化性能对比视图

2.5.日志与事件管理

        接收交换机主动发送如接口状态、接口速率、IP地址冲突、广播风暴、配置修改、权限变更等事件与日志消息,集中存储、解析处理后,异常信息及时地通知用户。通过统一界面集中管理事件与日志,提高其完整性和可追溯性,帮助用户快速定位问题并采取相应的解决措施。

2.6.故障告警与智能收敛

        搭载多种告警机制,自定义配置告警阈值,具备主动的故障监控功能,从众多的事件和状态中,系统地将零散的状态信息,总结成为当前状态,并对异常状态进行告警,第一时间获取准确的告警信息,快速标示已执行操作的告警,迅速定位产生告警的交换机,提升告警处理效率,极大降低因交换机故障带来的损失。

        告警管理采用自动去重、风暴抑制、关联聚合、维护期时间屏蔽、依赖屏蔽等多种智能告降噪机制,通过AI算法,对各类告警进行自动压缩收敛,减少90%的无效告警,抑制告警风暴,有效避免误报和漏报,直达故障根因。

2.7.自动化交换机状态巡检

        可自定义巡检策略,预设执行时间进行自动化巡检,巡查交换机实时运行状态,并向指定邮箱发送结果报告,实现对交换机的定期检查,把握网络运行中的易出现问题的环节,做到预防为先。可自行选择要统计的网络、交换机、资源、流量、性能、故障类型、监视器类型、时间范围、报表排序规则、过滤规则等生成巡检报表。支持统计图表导出或打印。

2.8.逐层下钻的流量透视

        提供端到端的流量透视能力,从交换机、接口、IP、服务、应用、会话等层级的实时流量监控和历史流量分析,识别带宽消耗较大的应用程序、服务、协议或IP地址,避免网络容量过载,并提升最终用户网络体验。帮助用户进行流量趋势分析、网络优化、网络监控等工作,并为网络规划、优化调整和业务发展提供基础依据。

 

第3章 交换机远程控制和编排式配置

        方案提供交换机远程控制的能力,采用“监控+运维+控制”的方式,将不同类型、不同型号、不同厂商的交换机统一纳入控制,集中管理。

3.1.交换机远程配置执行

        将周期性、重复性、规律性的大量日常运维工作,如交换机策略配置、故障自愈、自动巡检等,转化为依托于平台的自动化执行。通过深入交换机协议的控制能力,实现对交换机诸如准入控制、访问控制、QOS策略配置、全网流量策略配置、端口限速、端口开启关闭、一键开关机、策略备份对比等功能。

3.2.交换机远程配置──以(访问控制为例)

        以对华为交换机进行配置,使用高级ACL限制不同网段用户互相访问为例。

        效果要求:为公司中不同部门划分不同网段的IP地址,并将不同网段划分在不同VLAN中,限制不同网段之间的相互访问。

        第一步:将交换机纳入平台进行统一监管。

        第二步,配置交换机策略。主要策略包括:配置高级ACL和基于ACL的流分类,使交换机可以对不同部门间互访的报文进行过滤。配置流行为,拒绝匹配上ACL的报文通过。 配置并应用流策略,使ACL和流行为生效。

        第三步,查看交换机策略,并与前期策略进行对比。对比基准可以是某一次的备份或专用的基线文件,对策略异常变化进行告警。

3.3.配置备份、对比与恢复

        支持配置文件批量备份、下载、周期性备份、查看等,对交换机的多个备份文件进行对比。定期自动对交换机配置进行巡检备份,并可进行对比分析,为用户管理网络做出合理的建议提供数据支撑,支持进行已备份配置间的对比分析和针对性的配置恢复。

3.4.配置合规性审计

        交换机配置的稳定与合规至关重要,错误或未经认证的配置变更都可能导致严重的网络故障,方案通过本次执行结果与上次执行结果或基线文件的对比,当配置出现异常时进行自动告警,并可结合故障自愈能力,自动回滚到信任的版本。

 

第4章 资产CMDB管理

        通过构建交换机资产数据库,将交换机的信息包括资产编号、资产名称、品牌型号、来源、购买日期、端口数量、接口类型、负责人等,以及维保到期时间、维保单位等维保信息统一管理。

        动态感知纳入监控的资产运行状态,并以图谱的方式呈现资产与其他资产、配品配件、网络链路、使用人等静态关联关系。

 

标签:状态,配置,交换机,自动,监控,告警
From: https://www.cnblogs.com/zhtelecom/p/18167512

相关文章

  • 在Linux中,如何监控系统资源使用情况?
    在Linux中,监控系统资源使用情况对于系统管理员来说是一项重要的任务,它有助于确保系统性能和及时发现潜在的瓶颈。以下是一些常用的命令和工具,用于监控不同类型的系统资源:1.CPU使用情况top:实时显示系统中各个进程对CPU资源的使用状况。tophtop:top的增强版本,提供了彩色界......
  • 在Linux中,如何监控磁盘I/O性能?
    在Linux中,可以使用iotop和iostat命令来监控磁盘的I/O性能。以下是如何使用这两个工具以及它们各自的特点:使用iotop命令:iotop是一个实时显示系统磁盘活动的工具,类似于top命令,但专注于I/O活动。它能够展示每个进程或线程的实时I/O使用情况,包括读写带宽,以及等待I/O操作所花费的时......
  • 第九章,容器监控
    1.Docker监控命令在容器中,通常可以通过执行命令或利用第三方工具,获取当前容器中的数据并将数据呈现给用户。安装完成的Docker自带一些用于监控容器的子命令,这是Docker开发者为用户提供的容器监控方式。dockerps命令dockerps命令是第4章中讲过的命令,用来查看容器状态,示例代......
  • openGauss MOT监控
    MOT监控监控的所有语法支持基于openGauss的FDW表,包括下面的表或索引大小。此外,还存在用于监控MOT内存消耗的特殊函数,包括MOT全局内存、MOT本地内存和单个客户端会话。表和索引大小可以通过查询pg_relation_size来监控表和索引的大小。例如:数据大小selectpg_relation_size('......
  • 接口自动化要准备哪些内容?
    接口自动化测试是通过编写脚本来模拟用户操作和验证接口功能的自动化测试过程。为了进行接口自动化测试,你需要准备以下内容:接口文档:获取准确的接口文档,包括API端点、请求方法、参数、返回数据结构等信息。这些文档通常由后端开发人员提供。自动化测试工具:选择适合的自动化测......
  • 《最新出炉》系列入门篇-Python+Playwright自动化测试-41-录制视频
    1.简介上一篇讲解和分享了录制自动生成脚本,索性连带录制视频也一股脑的在这里就讲解和分享了。今天我们将学习如何使用Playwright和Python来录制浏览器操作的视频,以便在需要时进行回放和分析。2.录制视频语法录制视频介绍官方API的文档地址:https://playwright.dev/python/docs/......
  • web自动化框架basepage
    #-*-coding:utf-8-*-#@Author:caiweichao#@explain:基类封装webdriver方法,方便调用,减少代码重复importrandomimporttimeimportallurefromseleniumimportwebdriverfromselenium.common.exceptionsimport*fromselenium.common.exceptionsimportT......
  • 《最新出炉》系列入门篇-Python+Playwright自动化测试-40-录制生成脚本
    https://www.cnblogs.com/du-hong/p/17835463.html 1.简介各种自动化框架都会有脚本录制功能,playwright这么牛叉当然也不例外。很早之前的selenium、Jmeter工具,发展到每种浏览器都有对应的录制插件。今天我们就来看下微软自动化框架playwright是如何录制脚本的。很多小伙伴或......
  • 爬虫自动化之drissionpage实现随时切换代理ip
    爬虫自动化之drissionpage实现随时切换代理iphttps://blog.csdn.net/qq_32334103/article/details/126133862下载SwitchyOmega地址:https://github.com/FelisCatus/SwitchyOmega/releases  importplatformfromDrissionPageimportChromiumPage,ChromiumOptions......
  • 大厂50万节点监控系统架构设计&Prometheus底层源码级剖析
    大厂50万节点监控系统架构设计&Prometheus底层源码级剖析 设计和实现一个大规模监控系统需要深入考虑架构设计、可伸缩性、性能优化等方面。下面是一个关于大规模监控系统架构设计的简要指南,以及有关Prometheus底层源码的剖析:大规模监控系统架构设计:1.架构设计原......