首页 > 其他分享 >基于AIOps实现智慧园区极简IT运维

基于AIOps实现智慧园区极简IT运维

时间:2023-09-28 17:37:46浏览次数:48  
标签:极简 运维 管理 网络 故障 AIOps 设备 园区

随着物联网、云平台、大数据、人工智能等技术的发展,并逐步投入到智慧园区的建设,传统园区数字化转型加快。园区的形式包括产业园区、教育园区、制造业园区、科研园区、社区等等,园区形态不断演进和发展,园区网承载的对象和业务也越来越多。业务种类爆炸性增长,业务变更愈加频繁,网络运维的复杂程度与难度逐渐升高,引入大数据、AI技术促进网络运维更加智能高效已成为智慧园区网络运维的必然趋势。

第1章 智慧园区IT运维的痛点

随着园区数字化转型加速,智慧园区内的各类资产设备数量激增,运维问题不断凸显。如,设备种类多、数量大、分布广,故障排障难、效率低,人工运维成本高等等,园区网IT运维部门面临巨大网络运维压力。

面临的具体难题如下:

  • 园区网建设时期与阶段不同,缺乏统一的网络规划管理,网络架构相对混乱,难以实时观测,对网络性能瓶颈缺乏准确评估与扩容依据。
  • 园区网内包含的设备、系统类型多,数量大,分布广泛,缺乏态势感知能力,网络运行态势难以实时掌握,人工巡检难度大。
  • 网络中出现故障或异常时,因网络结构复杂,设施异地等原因难以快速定位,又因设备品牌、型号、配置等存在差异,难以快速定位故障根因,造成排障困难。
  • 园区网络缺乏故障自愈能力,未实现远程运维,人工运维成本高、效率低。
  • 网络性能、流量、巡检和配置检查的数据多为手工整理,数据分析统计难度大,效率和正确率较低,难满足更高的运维管理需求。
  • 园区管理涉及的IT设备、业务软件、行政资产、备品备件等数量巨大,种类繁多,仅靠人工管理难以对其备件、配件信息详细统计工作力量巨大且极易出错,资产的采购、调拨、报废等管理效率低,难审计。

 

第2章 智慧园区全息感知运维方案

在传统运维方式下,智慧园区运维工作中,集中监控能力薄弱且依赖于经验和规则,因网络故障引起的业务中断现象,网络故障的定位、诊断、分析过程对IT运维人员的能力和经验水平要求不断增高。因此,简单有效的图形化运维工具,对全区内网络、设备、业务的实时监测和分析预警,已成为园区实现全局化统筹管控、高效决策的必然选择。

北京智和信通智慧园区运维方案,通过智和网管平台对这些设备分布在智慧园区的不同区域、线路、位置的IT基础设施进行统一纳管、统一监测。通过实时网络拓扑、状态监控和各类故障、事件的预警,动态展现感知各种设备的分布情况、状态信息、异常情况等,并对园区内路径的流量信息进行统计分析,对网络带宽进行管理和规划,给后续网络扩容提供参考。

智和信通智慧园区一体化运维监控架构

 

2.1.智慧园区网络全景观测

智慧园区网络涉及大量传输设备、数通设备、安全设备、服务器、云、摄像头、感知终端等多种类型并存且相互连接,连接方式多样复杂,常规运维方案难以清晰管理设备间的链接关系。通过北京智和信通的网络全景观测方案将智慧园区的IT设施纳入智和网管平台中一站管控,采取智能技术,实现网络拓扑可视化的能力,通过动态智能拓扑实现全量设备、资源、链接关系、IP等实时更新、快速定位。

智和园区网络拓扑示意图

 

2.2.端到端网络连接关系可视化

方案通过对交换机光口和网络接口的监控,通过数据采集分析,实现对网络流量和关键连接的预测性维护,从整体维度到局部维度全面展示智慧园区网络内IT设施间链路各项指标,整体可观测、可告警、可分析、可统计。通过实时监控各个端口以及每条线路的通断情况和性能指标,结合专业的流量监控分析能力,对链路容量进行及时监控,并生成流量分析报告,为容量规划提供依据。

2.3.园区视频监控摄像头运维

智慧园区的视频监控体系的稳定运行是对智慧园区实时全面了解的有效手段,因此对视频监控系统内摄像头运行状态、画面质量的监测尤为重要。

本方案支持对不同品牌、不同型号的摄像头进行统一运维,将网络高清、智能分析、多级管控融合为一体。通过onvif接口协议和智能化识别技术,实现对视频画面自动侦测、自动提取,主动监控发现和分析出摄像机设备常见的故障,如设备不连通、画面偏色、信号缺失、清晰度异常、亮度异常等问题和原因,并及时在拓扑图中显示出当前视频监控的可用情况。

2.4.PON设备监控管理

方案采集、监控PON设备和其他网络设备数据,实现全域网络数据统一分析,统一呈现,对PON设备和以太网有线、无线设备统一智能分析,分析结果集中呈现,提升管理运维体验。通过智能技术,用户只需输入IP范围即可发现PON设备,满足整个网络大量设备接入需求;支持单个添加设备,在管理少量设备时逐个添加。

2.5.园区终端可视管理

PC、手机、PAD、摄像头、打印机、IP电话、视频会议等终端快速增长,方案通过多种发现算法,自动搜索发现交换机的下挂设备,智能识别网络中的智能终端和物联网终端,分析其的IP、MAC、端口等信息。自动生成设备拓扑图,简化添加删除等设备操作,提升管理效率。

2.6.虚拟化资源统一管理

方案支持对虚拟化环境下的虚拟机、宿主机等进行全方位运维监控,全面支持Exi5、KVM、Xen、Hyper-v等,监测指标涵盖物理机内部虚拟化设备的电源、操作系统、CPU、内存、磁盘等,最大化利用计算资源,保障虚拟化平台运行稳定。

2.7.云上云下资源统一监控

方案对复杂的多云异构环境、云上云下资源、信创云等进行全面管理,实现云下服务器、网络设备、安全设备、机房、机柜、专线、配件等设施,云上各类云服务器、云磁盘等云产品以及各类IP、NAT、DNS等资源的真正一站式运维,并支持对纳管资源的快速扩展。自动监测基础设施及资源,其中包括云、混合云、容器、虚拟主机、网络、服务器、存储等。对进程、资源利用率、网络使用量、性能、日志、事件进行全面监测。

2.8.弹性扩展,满足网络发展需求

方案支持设备及资源弹性伸缩,满足网络中设备量持续增长及更新的需求。可对设备类型模型进行扩展,可自定义新设备的类型、图标、类型识别策略;可对设备资源模型进行扩展,自定义新设备类型的网口、指示灯、风扇、电源的图标、识别发现策略;可自定义设备面板图,以拖拽、鼠标操作完成设备面板模板的制作;支持故障和性能扩展。

通过自定义设备类型及其设备资源,最大限度上提高了智和网管平台的管理范围,真正实现了对设备及其资源的全面化管理,达到管控万物的目标。

 

第3章 IT基础设施运行态势感知

方案融合人工智能、大数据、物联网、远程2.5D全景呈现等技术,实时感知IT设施全息运行状态,轻松观测智慧园区任一IT基础设施,无论主机、进行、网络设备等,通过统一的监测面板,全面洞察IT设施运行状态和性能,对全局网络态势实时追踪,快速定位故障和异常。

3.1.运行性能态势分析

实时监测并感知网络性能相关情况,全面覆盖IT环境,采集设备资源、应用、服务等性能信息,通过智能分析,多维度处理、分析、展示网络基础设施性能状态,实现全网态势的“可观、可管、可控”。

3.2.日志与事件管理

将事件和告警分离管理,接收设备/服务器主动发送的消息,集中处理后,及时地通知用户,并可以通过集中的管理界面进行管理。接收设备/服务器主动发送的消息,极大地提高了管理的主动性,通过统一界面集中管理事件,降低了管理的难度。

3.3.故障态势感知

方案通过统一的故障管理中心,统一检测、统一管理、统一分析园区网中各种事件日志、设备故障、网络异常、业务指标异常、流量异常等信息,快速感知网络故障。基于故障模型和AI算法分析故障原因,分析、压缩、并归关联故障信息,降低故障风暴,秒级定位故障位置,主动出击快速排障,故障处置全流程展示。

3.4.跨地域自动巡检

传统的人工巡检,尤其是应用巡检,缺乏统一的规范、标准,导致巡检的范围和深度都存在一定的局限性,并且是基于人工的手工统计,工作效率比较低,同时耗费较大的人力资源。本方案依托平台将以前依赖手工进行的日常巡检转换为自动化、定时执行的巡检策略,日常例行巡检、节假日和重要事件前的巡检均可自动化执行。

第4章 全网流量透视

随着智慧园区信息化建设的加速,其业务、应用层出不穷,对网络带宽的需求越来越高。正常的业务需要良好的带宽环境保障机制,避免被一些与业务无关的杂事干扰,影响工作效率。方案对智慧园区路网络全局流量和带宽实时监控,将出入双方向流量情况可视化展现。基于海量流量数据的存储挖掘,统计分析流量峰值、谷值、流量趋势、设备流量等数据,为网络流量管理提供数据支撑。

第5章 端到端业务运维体系

随着业务的不断增长,基于园区网的应用系统也越来越多,如OA、Email、ERP等数据业务,VoIP、PTSN等语音业务,视频会议等视频业务以及其他的办公、运营业务。如何维护园区网络的可靠稳定,不中断、不丢包、低延时、低抖动,以保障关键业务稳定运行。

第6章 全网IP合规监测

对于园区网内的IP地址采取统一数据标准进行梳理和管理,分网段、端到端的规划、部署、管理和监控IP地址。通过多种合规性策略检测全网MAC-IP的使用情况,实现从规划、分配到使用、回收的IP地址全视角管理,提升IP信息准确性,真正IP地址集中化、自动化、规范化管控。

黑白名单配置:通过黑白名单功能用来检测用户所关心的设备是否在网络中出现及出现时间。支持配置黑名单或白名单,智能划拨规划表中的IP、MAC设置为白名单策略,对非法接入设备进行告警处置。

IP-MAC绑定:对全网MAC和IP进行配对绑定,并周期性对MAC-IP进行检测。自动将规划表中的IP-MAC设置为绑定关系,自动扫描在线终端,当IP-MAC的绑定关系发生冲突时产生告警,保证入网终端安全可信。

第7章 无人值守地设备远程配置

园区网承载的业务经常发生变更,面对业务的变更运维工程师往往要对大量设备进行操作,此时如果依靠工程师逐一登录设备进行命令下发、策略配置,将产生大量重复性的工作,不但导致运维效率低下,也不可避免地产生人为配置错误。

通过智和信通全场景自动化运维方案纳入监控的设备进行单独、批量的配置操作,设备策略远程配置管理,可以自动批量进行设备配置修改,并可对设备配置进行备份、对比、恢复,宕机后设备配置可快速复原,保障设备及时恢复运行,全面提升配置效率、质量和安全性,降低运维复杂度。

针对不同类型的设备,支持进行各种控制、配置操作。

  • 对服务器/主机/虚拟化,支持一键开关机、进程管理、应用管理、容量管理等
  • 对交换机/路由器,支持ACL、QoS、流量策略、端口策略等
  • 对安全设备,支持防护管理、认证管理、NAT管理、VPN管理、内容控制等
  • 对数据库/中间件,支持空间管理、池管理、会话管理、连接控制等
  • 对传输设备,支持终端管理、链路管理、信号控制、功率配置等
  • 对其他设备,支持结合用户实际场景,通过拖拽流程的方式实现自定义管控策略

对不同厂商,如Cisco、HP、Nortel、Juniper、3Com、D-link、Foundry、Dell、Proxim、NetScreen、华为、H3C、锐捷、中兴等多家厂商的网络设备。

第8章 全场景自动化运维

随着智慧园区信息化建设发展而来的是越来越复杂的业务和越来越多样化的需求,不断扩展的应用需要更加合理的运维模式来保障。传统园区网运维依赖人工进行,运维效率低,网络配置管理易出错,排障处置困难。

方案通过运维自动化将IT运维中涉及的服务、命令、操作、执行组件化、策略化,将需要进行的运维服务、操作等以组件、策略的形式托管至平台中进行维护和管理,通过简单灵活的编排能力,使用者可以选择业务场景所需的策略,通过可视化拖拽的编排方式进行组合,即可完成应用场景端到端的图形化编排。

在安全合规的前提下,将运维人员从整体的变更流程及变更内容的准备中解脱出来,实现网络变更、设备配置自动化,业务需求变更,通过平台自动部署实现,无需手工敲命令行,快速响应需求变化。

将人工运维与故障自愈结合,无需针对告警进行手动处置,只需预编排告警处理流程,平台根据场景自动触发,实现故障自愈。降低甚至清除排障处置中的延迟时间,完成零延迟的IT运维。

在智慧园区日常网络运维服务中,重复的故障和请求约占到70%,只有30%的故障真正需要专业人员来解决,知识经验对提升重复工作的效率起到了至关重要的作用。通过智和网管平台自动化运维的能力,将只能由专家处理的各类操作和判断转化为可存在于平台内的流程,形成可保留可复用的运维知识,减少因误操作带来的损失,保障运维效率。

 

第9章 运维大数据分析

智慧园区涉及的IT设施及各业务系统产生的海量数据无法得到深层次的应用,管理者决策缺乏数据依据,难以参考各类网络业务指标、数据等实现对运行态势、隐患风险的实时掌控及运营管理。

为解决此难题,智和信通智慧园区监控运维方案利用图形、图表、图表等易于理解的形式,提取和分析大量复杂的各类运维数据,呈现分析结果,将全域资源融合展示。从而帮助运维人员在短时间内更好地理解和获得更多的信息,帮助运维中心能够实时了解业务和其所依赖IT资源的运行状况,以及提供系统运维和优化的指示和依据。

智慧园区运维大屏示意图

第10章 更多协同运维能力

10.1.IT资产生命周期监管 

建立健全资产台账,实现一机一档,通过自定义多级资产分类,细化资产类别,实现资产分类管控,提高资产精细管理程度。从资产入库、领用、变更、维修、调拨、到报废处置,资产每一步操作均实现完整记录,支持追溯,通过平台实现资产整个生命周期的全流程闭环管理,使得IT资产每一次生命周期变更,都有流程可依、都有迹可循,从而实现全面的IT资产监管,解决网络设备在日常运维过程中出现“脱管”或“半脱管”的问题。

10.2.可量化运维工单体系

通过方案实现运维工单“无纸化”,支持于设备和故障管理页面快速创建工单,把控故障处理进度,通过工单平台简化故障处理流程,形成自动化故障处理机制,并在每个处理流程的节点上责任到人,实现在快速响应故障的同时,实现兼顾运维流程管控。

第11章 智和信通信创国产化支持

智和信通提供的信创运维方案,立足于北京智和信通10年的国产融合经验,与国产软硬件产品深度适配,方案应用覆盖各行各业。方案支持在中标麒麟、银河麒麟、红旗Linux等国产操作系统上运行,支持在达梦、金仓、神州等国产数据库进行数据存储,通过东方通等国产中间件提供对外服务,支持龙芯、申威等国产CPU架构,并实现对国产化CPU、服务器、数据库、中间件等IT软硬件设备的综合监控与运维管理。

第12章 方案应用价值

通过对园区网内的IT基础设施、IT机房、链路、资产、流程、业务的全面梳理、全栈监控、实时告警、故障自愈等智能化运维手段,解决园区运维面临的各项难题,助力智慧园区IT运维部门告别传统“救火式”运维,运维效率大幅度上升。

 

标签:极简,运维,管理,网络,故障,AIOps,设备,园区
From: https://www.cnblogs.com/zhtelecom/p/17736204.html

相关文章

  • Spring Boot与MySQL搭配,打造极简高效的数据管理系统
    ......
  • MySQL运维2-主从复制
    一、主从复制概念主从复制是指将主数据库的DDL和DML操作通过二进制日志传到从服务器中,然后在从服务器上对这些日志重新执行也叫重做,从而使得从数据库和主库的数据保持同步。MySQL支持一台主库同时向多台从库进行赋值,从库同时也可以作为其他从服务器的主库,实现链式复制。......
  • 亚信科技AntDB数据库与优逸派科技基于人工智能的自动化运维管理平台产品完成兼容性互
    日前,亚信科技AntDB数据库与北京优逸派科技有限公司基于人工智能的自动化运维管理平台产品完成兼容互认。经过双方团队的严格测试,AntDB数据库与基于人工智能的自动化运维管理平台产品完全兼容,整体运行稳定高效。图1:亚信科技AntDB数据库与优逸派科技完成适配随着我国数字经济建设......
  • MySQL运维1-日志
    一、错误日志错误日志是MySQL中最重要的日志之一,它记录了当MySQL启动和停止时,以及服务器在运行过程中发生的任何严重错误时的相关信息,当数据库出现任何故障导致无法正常使用时,建议首先查看此日志错误日志默认是开启的,默认存在目录/var/log/,默认的日志文件名为mysqld.log......
  • PPT| 基于标准化规范化IT运维管理整体解决方案P48
        本人在四大咨询机构从事咨询工作多年,二十年一线数字化规划咨询经验,提供制造业数智化转型规划服务,顶层规划/企业架构/数据治理/数据安全解决方案资料干货.   【智能制造数字化咨询】该PPT共86页,由于篇幅有限,以下为部分资料,如需完整原版 方案,点击关注下方。  ......
  • PPT| 网络安全运维管理实践 P34
       本人在四大咨询机构从事咨询工作多年,二十年一线数字化规划咨询经验,提供制造业数智化转型规划服务,顶层规划/企业架构/数据治理/数据安全解决方案资料干货.  【智能制造数字化咨询】该PPT共34页,由于篇幅有限,以下为部分资料,如需完整原版 方案,点击关注下方。   随......
  • Linux运维指南丨5种Linux安装包管理工具中文手册
    本篇介绍常见Linux操作系统的安装包管理工具,主要介绍其使用命令。包管理系统除了安装软件外,它还提供了工具来更新已经安装的包。包存储库有助于确保你系统中使用的代码是经过审查的,并且软件的安装版本已经得到了开发人员和包维护人员的认可。dpkgUbuntu、Debian......
  • Linux 运维必备 150 个命令汇总
    本文章盘点了Linux运维必备150个命令,可配合网站使用。定位你需要使用的命令,然后去这个网站查询详细用法即可。地址:https://www.linuxcool.com 线上查询及帮助命令man:全拼manual,用来查看系统中自带的各种参考手册。help:用于显示shell内部命令的帮助......
  • Git忽略提交规则 - .gitignore配置运维总结
    在使用Git的过程中,我们喜欢有的文件比如日志,临时文件,编译的中间文件等不要提交到代码仓库,这时就要设置相应的忽略规则,来忽略这些文件的提交。简单来说一个场景:在你使用gitadd.的时候,遇到了把你不想提交的文件也添加到了缓存中去的情况,比如项目的本地配置信息,如果你上传到Git中去......
  • KingbaseES V8R6 集群运维案例 -- 脚本部署集群后ssh无法连接
    案例说明:在kylinV10环境下,通过脚本方式部署KingbaseESV8R6集群后,发现ssh无法连接主机,通过分析发现在脚本部署过程中会对系统环境进行优化配置,在修改了/etc/ssh/sshd_config中的usePAM=yes后,导致ssh连接不上。适用版本:KingbaseESV8R6系统环境:KylinV10Server一、问题现......