首页 > 其他分享 >大型集团企业一体化运维监控方案

大型集团企业一体化运维监控方案

时间:2023-08-01 18:04:12浏览次数:34  
标签:运维 管理 一体化 故障 监控 企业 设备

        当前,云计算、大数据、人工智能等IT技术迅猛发展,企业的信息化步入了一个崭新的时代,企业规模不断壮大,业务不断拓展,企业信息化依赖的网络结构和IT技术越来越复杂。企业运维部门采用的运维工具和技术实力直接决定企业是否能提供稳定、可靠、快速、优质的服务。但传统网管监控设备种类受限,监控的效率不高,后期扩展困难,同时无法和企业的业务情况结合起来,无法提供足够的安全管控功能,致使企业IT系统运行维护的管理水平相对滞后。

第1章 大型集团企业网络运维的痛点

        随着企业数字化转型升级进程的加快,很多大型集团企业的信息化建设虽已具备良好的IT基础,但同时也导致企业IT系统架构越来越复杂,新业务系统不断上线,企业内部难以掌握企业内所有软硬资源的数量、版本、运行状态等信息,大型集团企业运维面临诸多难题。

面临的具体难题如下:

  • 因建设时期等原因,企业网络中分布着不同时期、不同厂商、不同型号的IT设备,运维人员需频繁切换不同厂商的管理平台对其进行管理,难以进行全面高效运维。
  • 常规网络管理工具,缺乏各级网络结构可视化能力,难以全面覆盖所有网络设施,用户无法掌握网络运行态势。
  • 企业网络中交换机、路由器、VPN、服务器、PC等多种类型设备并存且相互连接,连接方式多样复杂,难以清晰管理设备间的链接关系。
  • 网络中出现故障或异常时,因设备品牌、型号、配置等存在差异,难以快速定位,又因网络结构复杂,难以快速定位故障根因,造成排障困难。
  • 企业运维过程中,只有当故障已经发生并且造成业务影响时才能发现和着手处理,日常运维工作多处于“救火”状态,被动地处理各种故障。
  • 网络设备配置复杂,设备间兼容性差,运维过程中大量的配置变更和巡检工作以手工为主,效率低、风险大。
  • 企业内部如ERP、CRM、OA办公、项目管理系统等业务系统众多,业务系统间交叉联动,缺乏合理手段对业务进行全面监控。
  • 企业中IT设备、业务软件、行政资产等数量巨大,种类繁多,仅靠人工管理难以对其备件、配件信息详细统计,资产的采购、调拨、报废等管理效率低,难审计。
  • 网络性能、流量、巡检和配置检查的数据多为手工整理,数据分析统计难度大,效率和正确率较低,难满足更高的运维管理需求。

第2章 大型集团企业对运维监控软件的需求

        根据企业信息化建设现状和运维难题,往往提出以下基础运维需求,并希望通过一款产品全栈式运维,满足企业基本需求和支撑企业进行运维扩张。

(1)全面深入地监控管理

        企业既有不同厂商的网络设备,也有各种服务器、软件应用,设备种类繁多,设备数量巨大,而且设备的管理协议不同,运维部门期望能用一套软件统一监控起来。

(2)不间断地全程监控

        运维部门需要进行7*24的全程监控,故障将要发生前能提前预警,故障出现时可以立刻通知到管理员,定位到故障环节,快速恢复系统。

(3)后期扩展设备的支持

        对企业来说,新的业务在不断开展,设备和新的软件应用也在不断扩展,运维部门期望现有的网管软件对未来的扩展也能有较好的支持。

(4)清楚地掌控设备部署间的关系

        设备之间的物理关系、设备与业务的关系,是运维部门进行全局掌控的基本条件, 随着时间的变化、人员的流动、设备的变更、业务的迁移,导致设备和业务的拓扑关系很难管理。

(5)IT复杂性与管理方便性的矛盾

        IT基础设施本身就越来越复杂,技术也越来越高级,面对复杂的IT设施进行管理,对运维部门技能的要求也将更高。因此对网管的功能要求也是越来越高,造成网管软件功能操作复杂,难以上手。

(6)多层次的安全管理

        对于企业中的不同部门,需要对不同的部门分配不同的管理权限以及设备权限,权限的管理分配是运维部门关注的重要指标。

(7)结合业务监控

        传统网管监控软件往往只监控网络设备,无法对公司业务情况进行多层级业务可视化展示和实时监控,难以有效反馈业务运行情况,因此需要一款产品可深入业务进行实时监控。

(8)成本的控制

        运维部门作为服务中心,如何保障IT投资收益,提升IT投资价值,实现最大的业务目标,是运维部门重点关注的指标。

第3章 大型集团企业一体运维监控方案

        大型集团企业中,旗下各分子公司通常分别建设数据中心和运维体系,但随着集团信息化建设的发展,运维需求越来越多样,各分子公司独立建设运维系统的技术和成本飞速增长,且各级公司“烟囱式”分散部署的运维系统,难以实现一体化管理与协同融合。北京智和信通一体化运维监控方案,引入万物互联理念和技术打造一体化运维系统,为企业信息化、数字化转型奠定基础。

        方案通过智和网管平台对管理区域内的各类网络设备进行集中监控、操作维护和资源配置调度等,实现对网络资源的管理、运行监测、策略配置、故障管理,并通过自动化运维能力实现故障资源,对于无法自愈的故障与报修,通过运维工单调动现场运维人员进行处理,提高企业IT设备资源的可靠性与安全性,保障企业业务稳定运行,为用户带来更高质量的信息服务。

智和信通大型集团企业一体化运维监控架构

3.1.多级架构一体化监控

        一般大型集团企业会根据地域、业务等设立多个分子公司、事业部或办事处,如何建立“一体化”“集中式”的IT运维体系,保障集团核心网络、业务的持续稳定,降低故障率是每个大型集团企业必须思考的问题。

        在运维管理上,北京智和信通一体化运维监控方案将大型集团企业网络中的IT设施均纳入智和网管平台中一站管控,避免分散管理,减少运维成本。采取智能技术,实现网络拓扑可视化的能力,通过动态智能拓扑实现全网设备、资源、链接关系、IP等实时更新、快速定位。

大型集团企业网络拓扑示意图

        通过按片区、按地域、按层级等多种布局方式划分网络,使用不同颜色、粗细、图标表示被管理对象的状态信息,助力运维人员实时了解网络架构及全网运行状态,快速感知资源、链路、流量等异常信息。

大型集团企业网络拓扑示意图

3.2.全网资源统一监控

        通过对大型集团企业网络中海量交换机、路由器、接入设备、无线AC、AP、摄像头、操作系统、应用、数据库、虚拟化、中间件、云、存储等智能解析和关联分析,结合全流量采集分析能力,形成整个网络通信链路的多端网络流量分析链,助力运维人员从多个维度实现对相应告警的智能分析,解决传统运维监控中关联数据缺失,辅助排障信息不足的问题。

设备资源可视化显示

3.3.虚拟化资源统一管理

        方案支持对虚拟化环境下的虚拟机、宿主机等进行全方位运维监控,全面支持Exi5、KVM、Xen、Hyper-v等,监测指标涵盖物理机内部虚拟化设备的电源、操作系统、CPU、内存、磁盘等,最大化利用计算资源,保障虚拟化平台运行稳定。


3.4.云上云下资源统一监控

        方案对复杂的多云异构环境、云上云下资源、信创云等进行全面管理,实现云下服务器、网络设备、安全设备、机房、机柜、专线、配件等设施,云上各类云服务器、云磁盘等云产品以及各类 IP、NAT、DNS 等资源的真正一站式运维,并支持对纳管资源的快速扩展。

3.5.端到端全链路可视化

        方案通过对交换机光口和网络接口的监控,通过数据采集分析,实现对网络流量和关键连接的预测性维护,从整体维度到局部维度全面展示大型集团企业网络内IT设备间链路各项指标,整体可观测、可告警、可分析、可统计。

链路综合信息示意图

3.6.弹性扩展,满足网络发展需求

        方案支持设备及资源弹性伸缩,满足网络中设备量持续增长及更新的需求。可对设备类型模型进行扩展,可自定义新设备的类型、图标、类型识别策略;可对设备资源模型进行扩展,自定义新设备类型的网口、指示灯、风扇、电源的图标、识别发现策略;可自定义设备面板图,以拖拽、鼠标操作完成设备面板模板的制作;支持故障和性能扩展。


3.7.实时故障预警

        全面采集大型集团企业网络内所有联网设备,如交换机、路由器、接入设备、无线AC、AP、摄像头、操作系统、应用、数据库、虚拟化、中间件、云、存储等状态信息,通过对告警机制以及阈值的设置,第一时间获取准确的告警信息,快速定位告警设备,提升告警处理效率,降低因设备故障带来的损失。


3.8.异常事件管理

        将事件和告警分离管理,接收设备/服务器主动发送的消息,集中处理后,及时地通知用户,并可以通过集中的管理界面进行管理。接收设备/服务器主动发送的消息,极大地提高了管理的主动性,通过统一界面集中管理事件,降低了管理的难度。


3.9.跨地域自动巡检

        传统的人工巡检,尤其是应用巡检,缺乏统一的规范、标准,导致巡检的范围和深度都存在一定的局限性,并且是基于人工的手工统计,工作效率比较低,同时耗费较大的人力资源。本方案依托平台将以前依赖手工进行的日常巡检转换为自动化、定时执行的巡检策略,日常例行巡检、节假日和重要事件前的巡检均可自动化执行。

3.10.全网带宽、流量监控与分析

        随着大型集团企业信息化建设的加速,其业务、应用层出不穷,对网络带宽的需求越来越高。正常的业务需要良好的带宽环境保障机制,避免被一些与业务无关的杂事干扰,影响工作效率。方案对大型集团企业流量和带宽实时监控,将出入双方向流量情况可视化展现。基于海量流量数据的存储挖掘,统计分析流量峰值、谷值、流量趋势、设备流量等数据,为网络流量管理提供数据支撑。


3.11.全网IP合规监控

        对于大型集团企业的IP资产,采取统一数据标准,对整体网络中的IP和MAC进行梳理和管理,建立健全IP资产台账,端到端规划、部署、管理和监控IP 地址。通过智能IP扫描能力,定义多层次子网,然后扫描其范围内每个IP地址的当前状态,包括IP地址,MAC地址等信息,也可以查看IP段内地址使用详情,便于IP地址分配管理等。

3.12.端到端业务运维体系

        随着业务的不断增长,企业内部应用系统也越来越多,如果建设统一的应用维护、管理体系,将给企业运维管理带来不小的压力。通过搭建端到端业务监控体系,实现集团业务系统运维管理的主动化和体系化,通过实时的监测和分析发现系统潜在的问题和风险,实现主动式运维管理,保障关键业务稳定运行。

大型集团企业业务系统示意图

        针对业务应用性能与用户体验进行检测分析,无需安装插件即可提供开箱即用的主动拨测试业务监测。从前端用户体验、网络延迟到后端的业务服务和基础架构,全栈溯源为用户提供端到端的完整全链路数据融合和关联分析,为用户快速发现业务性能瓶颈,提升用户体验奠定基础。

大型集团企业业务看板示意图

        直观、便捷地帮助运维人员对大型集团企业的ERP、MES、LIMS、CRM、人事管理系统、OA管理系统、项目管理系统、桌面安全、ITSM、数据存储备份等进行监控,掌握业务的运行状态和健康水平,了解业务动态变化趋势,快速定位故障源,降低运营风险。

3.13.无人值守的设备远程配置

        大型集团企业网络承载的业务经常发生变更,面对业务的变更运维工程师往往要对大量设备进行操作,此时如果依靠工程师逐一登录设备进行命令下发、策略配置,将产生大量重复性的工作,不但导致运维效率低下,也不可避免地产生人为配置错误。

        通过智和信通全场景自动化运维方案纳入监控的设备进行单独、批量的配置操作,设备策略远程配置管理,可以自动批量进行设备配置修改,并可对设备配置进行备份、对比、恢复,宕机后设备配置可快速复原,保障设备及时恢复运行,全面提升配置效率、质量和安全性。


        通过批量作业并行处理能力,实现多设备并发批处理操作,将简单的设备控制操作在大批量设备进行执行,并对执行过程进行监督,对执行结果进行检查。在安全合规的前提下,将运维人员从整体的变更流程及变更内容的准备中解脱出来,实现网络变更、设备配置自动化。

多类型多厂商设备支持:

        针对不同类型的设备,支持进行各种控制、配置操作。

  • 对服务器/主机/虚拟化,支持一键开关机、进程管理、应用管理、容量管理等
  • 对交换机/路由器,支持ACL、QoS、流量策略、端口策略等
  • 对安全设备,支持防护管理、认证管理、NAT管理、VPN管理、内容控制等
  • 对数据库/中间件,支持空间管理、池管理、会话管理、连接控制等
  • 对传输设备,支持终端管理、链路管理、信号控制、功率配置等
  • 对其他设备,支持结合用户实际场景,通过拖拽流程的方式实现自定义管控策略

        对不同厂商,如Cisco、HP、Nortel、Juniper、3Com、D-link、Foundry、Dell、Proxim、NetScreen、华为、H3C、锐捷、中兴等多家厂商的网络设备。

3.14.全场景自动化运维

        方案将大型集团企业网络运维中涉及的服务、命令、操作、执行组件化、策略化,将需要进行的运维服务、操作等以组件、策略的形式托管至平台中进行维护和管理,通过简单灵活地编排能力,使用者可以选择业务场景所需的策略,通过可视化拖拽的编排方式进行组合,即可完成应用场景端到端的图形化编排,最后以多种方式触发执行即可完成期望的运维变更任务,从而实现高效、稳定、安全的智能运维。


3.15.人工运维与故障自愈结合

        将人工运维与故障自愈结合,无需针对告警进行手动处置,只需预编排告警处理流程,平台根据场景自动触发,实现故障自愈。

        通过实时发现告警,进行预诊断分析,判断告警类型和级别,如果是一般告警,平台进行自动恢复,如果是严重复杂告警则通过告警通知、运维工单等形式通知运维管理人员,进行人工处理。同时,将只能由专家处理的各类操作和判断转化为可存在于平台内的流程,形成可保留可复用的运维知识。

3.16.运维大数据分析

        大型集团企业网络设施及各业务系统产生的海量数据无法得到深层次的应用,管理者决策缺乏数据依据,难以参考各类网络业务指标、数据等实现对运行态势、隐患风险的实时掌控及运营管理。

        为解决此难题,智和信通大型集团企业监控运维方案利用图形、图表、图表等易于理解的形式,提取和分析大量复杂的各类运维数据,呈现分析结果,将全域资源融合展示。从而帮助运维人员在短时间内更好地理解和获得更多的信息,帮助运维中心能够实时了解业务和其所依赖IT资源的运行状况,以及提供系统运维和优化的指示和依据。

大型集团企业运维大屏示意图

3.17.IT资产生命周期监管

        对于资产管理,采取统一数据标准,对整体网络资产进行梳理和调用,避免资产信息在运维系统和实物间的差异,减少网络运维过程中信息不一致、数据不统一等问题通过平台将资产实物与运维数据库一一对应,解决网络设备在日常运维过程中出现“脱管”或“半脱管”的问题。

        建立健全资产台账,实现一机一档,通过自定义多级资产分类,细化资产类别,实现资产分类管控,提高资产精细管理程度。从资产入库、领用、变更、维修、调拨、到报废处置,资产每一步操作均实现完整记录,支持追溯,通过平台实现资产整个生命周期的全流程闭环管理。

3.18.可量化运维工单体系

        通过方案实现运维工单“无纸化”,支持于设备和故障管理页面快速创建工单,把控故障处理进度,通过工单平台简化故障处理流程,形成自动化故障处理机制,并在每个处理流程的节点上责任到人,实现在快速响应故障的同时,实现兼顾运维流程管控。


        通过建立工单服务基准,预设工单在不同优先级、不同状态时,受理人应该响应的时间及未响应时的处理方式,生成工单自动化处理规则,并以多种方式进行通知,避免超时响应提升全流程服务管理质量。

第4章 智和信通信创国产化支持

        方案涉及的所有产品与模块,均由北京智和信通自主研发,从功能模块、数据库、界面全部基于统一Java技术平台和统一数据关系模型,不包含任何第三方功能库。

        智和信通提供的信创运维方案,立足于北京智和信通10年的国产融合经验,与国产软硬件产品深度适配,方案应用覆盖各行各业。方案支持在中标麒麟、银河麒麟、红 旗 Linux等国产操作系统上运行,支持在达梦、金仓、神州等国产数据库进行数据存储,通过东方通等国产中间件提供对外服务,支持龙芯、申威等 国产CPU 架构,并实现对国产化CPU、服务器、数据库、中间件等IT 软硬件设备的综合监控与运维管理。


第5章 标杆案例-中国移动北方十三省集中监控运维项目

        2010年中国移动通信集团在全国建设了不良信息过滤系统,此系统由不良信息过滤软件、Windows 服务器、Linux 服务器、数据库、分流设备、交换机、存储服务器等构成。

        建设范围:中国移动不良信息过滤系统的北方区域:北京、天津、黑龙江、吉林、辽宁、山东、山西、甘肃、青海、西藏、河南、宁夏共13个省公司。

        设备类型:过滤软件、Windows 服务器、Linux 服务器、数据库、分流设备、交换机、存储服务器等

5.1.核心需求

        需要一套集中的OMC(操作维护中心)监控软件,对不良信息过滤系统的所有的设施进行监控。

  • 集中部署OMC,分区域管理:各省市管理人员从Internet登录到OMC系统,对本省的设备进行监控;
  • 穿透私网:要管理的设备分散在各省公司下不同城市的机房中, 网管服务器无法直接访问各省设备;在北京的中心机房,可以监控到其他机房的设备运行情况;
  • 严格的故障处理机制:故障发生、故障通知、故障清除、故障确认、故障恢复,需要符合中国移动的运维管理规定;
  • 时效性要高:发现故障的时间,平均不能低于30秒,最大不能超过1分钟;每台设备 10—20个需要监控的故障/性能指标,监控周期为10秒钟;
  • 统一监控:所有的服务器、网络设备、软件系统在同一界面中统一监控;
  • 7*24 小时的监控画面:主监控屏幕需要7*24小时不间断展示告警和警报。

5.2.智和信通建设方案与效果

        已实现包括设备拓扑、故障管理、性能管理、配置管理以及安全管理等在内的超过1000种基础网管功能,且支持功能扩展针对中国移动的具体需求,智和信通提出以下解决方案:

拓扑监控效果

  • 利用WebService技术采用集中式部署运维平台,分布式部署的网管采集代理,实现中心、片区的层级监测,片区独立运行,中心可以集中管理分部的监测数据;
  • 配置代理服务器的IP和端口,做到采集服务端的代理模式,可以做到监控私有网段下的设备;
  • 具备主动的故障监控功能,能从众多的事件和状态中,系统将零散的状态信息,总结成为当前工作状态,并产生告警;
  • 采用JAVA多线程任务并发技术,把监测频率提升到秒级,以保证监测数据的实时性和精确性,监控周期最低可以设置为5秒;
  • 采用设备统一模型,可以统一管理Windows 服务器、Linux 服务器、数据库、分流设备、交换机等各种设备类型;
  • 客户端与服务端之间网络故障恢复后,网管客户端无需重启,自动恢复,数据库停机/故障恢复后,网管系统客户端、服务端无需重启,自动恢复,支持双机热备功能。

标签:运维,管理,一体化,故障,监控,企业,设备
From: https://www.cnblogs.com/zhtelecom/p/17598610.html

相关文章

  • 浅析互联网技术在分布式光伏发电运维平台的设计与实现
    摘要:随着光伏发电的不断发展,对于光伏发电监控系统的需求也日益迫切,“互联网+”时代,“互联网+”的理念已经转化为科技生产的动力,促进了产业的升级发展,本文结合“互联网+”技术提出了一种针对分散光伏发电站运行数据进行实时数据采集、分析、处理,查看实时运行情况,并通过移动APP对光伏......
  • InfluxDB+TDengine+Telegraf+Grafana 搭建监控平台
    LinuxCentOS环境1.InstallInfluxDB(1)首先访问InfluxDB官网(点击访问),找到选择合适的版本参考文档:https://docs.influxdata.com/influxdb/v2.7/install/?t=Docker下载并运行InfluxDBv2.7dockerrun--nameinfluxdb-p8086:8086influxdb:2.7.0将数据持久化到InfluxD......
  • 人工智能如何应对 DevOps 监控和可观测性挑战
    自ChatGPT横空出世之后,AIGC已成为不可逆转的时代浪潮。在之前的文章中,我们介绍了DevOps领域中AI的用例,需要回顾可以点击下方链接。在本篇文章中,我将简单聊聊人工智能(AI)如何通过分析日志和指标来预测潜在的系统故障或性能下降,从而实现主动维护和问题解决。 持续监控和可观测......
  • Nebula图数据库网络监控无法显示的问题
    背景:因公司使用的图数据是Nebula,在部署监控的过程发现无法获取网络监控的前端显示,原因是生产上有虚拟网络,而且不是以eth开头的,这个需要修改源码才能解决1.进入nebula-dashboard的前端修改界面cd/opt/nebula-dashboard/public2.打开main.1314ff9d9190129689ac.js修改device=~"(eth......
  • AWD-PWN流量监控与抄流量反打
    RE手在AWD中比较做牢,队伍里也没pwn手,在awd出现pwn靶机比较坐牢。之前都不知道pwn靶机可以抄流量反打。参考pwn_waf:https://github.com/i0gan/pwn_waf/tree/main该waf有四个模式CATCH模式只是简单的捕获被攻击的交互流量,可以在日志路径下查看。I0GAN模式是一种防御模式,可以防......
  • 基于端-边-云一体化架构的SkeyeVSS国标视频融合云平台在自助银行中的应用
    银行ATM功能的完善与升级,使得人们对ATM的依赖和使用度越来越高。然而ATM作为一个开放的公共环境,在服务应用中易造成各种异常情况及业务纠纷,一些不法分子也趁机利用ATM进行犯罪活动。而对于银行用户而言,提前预警、制止案件发生、避免人身、财产损失是对客户最基本的保护。如何保证AT......
  • 2、【java程序运行监控byteman】使用示例(运行中方法耗时监控、javaagent监控、jvm监控
    文章目录一、统计方法耗时(程序运行中)1、创建示例类2、建立监控1)、获取运行程序的进程号2)、建立监控3、编制脚本4、检测脚本5、提交脚本6、验证7、卸载脚本二、其他示例1、javaagent示例(程序未运行)1)、创建示例类2)、编译及测试3)、编制脚本4)、运行脚本5)、测试2、监控jvm的类1)、创建......
  • Linux集群监控部署: prometheus 普罗米修斯 + Grafana
    前言之前我们有用到top、free、iostat等等命令,去监控服务器的性能,但是这些命令,我们只针对单台服务器进行监控,通常我们线上都是一个集群的项目,难道我们需要每一台服务器都去敲命令监控吗?这样显然不是符合逻辑的,Linux中就提供了一个集群监控工具–prometheus。prometheus监......
  • 山特一体化解决方案,助力电子政务中心机房轻盈升级
    随着市民对便捷、高效的政务服务需求不断增加,电子政务已成为服务型政府建设的重要标志,由此带来的庞大业务流及信息流,都给支撑其可靠运行的电子政务中心机房带来了诸多挑战。山特作为全方位电源解决方案提供商,在政府行业市场,有着丰富的项目经验与技术沉淀,始终致力于帮助用户数......
  • 使用prometheus监控mysql数据库性能指标
    目标:需要实现mysql的性能监控,如cpu占用率,内存占用率,连接数,执行效率等等.......如图所示: 实现思路一:使用linux的top命令,定时查看mysql的cup占用率,内存占用率........,然后将得到的数据存放进入数据库,后端拿到数据库数据,前端拿到数据后,进行数据重组,结合种种图表(echa......