随着金融科技的不断变革,银行的网络整体规划和建设思路也在不断追赶新时代银行业务的发展需要。随之而来的是银行数据中心的网络规模不断扩大,从最初的单中心逐渐延伸到多地多中心运营的模式,使用的网络技术也从传统的交换路由、负载均衡、防火墙逐步发展到软件定义网络、网络服务虚拟化等各类新兴技术。
同时,在金融需求越来越旺盛,银行业务发展越来越快的当下,银行数据中心出现异常运行而造成的损失和后果就愈发严重。在云计算、大数据等新兴技术不断涌现的新形势下,如何保障数据中心安全生产运行,高效率、高质量地运维庞杂的网络环境,已成为银行信息科技部门的必答题。
第1章 银行数据中心运维建设背景
根据银监会编制的《中国银行业信息科技“十三五”发展规划监管指导意见》中明确指出: 提高运维自动化水平,打造智能化运维体系。
《意见》表明:提高基础资源和应用部署的自动化水平,实现快速交付、动态调整、弹性部署,降低人工操作风险,自动化部署比例不低于75%。持续推进生产运维监控精细化、自动化、智能化建设,强化系统风险和故障的早预警、早定位和早处置。实现应用层面交易全流程、全节点监控全覆盖,结合应用系统交易特性及相关数据的分析对比,提升交易过程监控的智能化水平。强化容量管理,做好相关资源的动态规划,预防非计划性、突发性的容量瓶颈问题发生。强化运维、开发、安全、风险管理的信息共享和一体化协作,提升多方联动能力。加强运维大数据分析,利用运维大数据加强业务风险防控,探索利用运维大数据推动业务流程优化并支持业务创新。
第2章 银行数据中心网络运维痛点
随着银行数据中心信息系统规模逐渐壮大,信息科技部的运维工作任务日益繁重,传统的局部、粗放、碎片化的IT运维管理模式已经无法满足新形势下业务连续性保障的实际需求。在现有的银行运维体系下,运维管理的工作涵盖从机房基础设施,到各类网络及网络设备、服务器、操作系统、数据库、中间件、各级业务系统所引发的各类事件和问题,如容量不足、故障恢复、灾备转移等等内容。
银行IT运维也面临着应用系统繁多,系统间关联关系负责,业务环节繁多等压力,而在日常运维工作中,事件处理中信息不全、问题描述不准确、关键信息缺失等情况,也给运维部门带来重重困难。
- 银行数据中心的系统硬件从型号、品牌呈现数量多、品牌多的特点,难以统一管理。
- 支撑业务系统的虚拟化、云计算、大数据、微服务、容器、信创等技术趋势迅速翻新,迫IT环境复杂度、规模都急剧提升;节点分布范围更加广,物理位置不统一,对故障定位、变更升级等运维工作带来新挑战。
- 新增业务需配置多厂商、多类型设备,各厂商设备配置命令千差万别,协议繁复,配置极其复杂,大量重复性的策略开通工作,费时费力;而上云的业务也同样面临异构多云跨厂商业务开通的难题。
- 银行业务的多元化发展,对系统和网络设施的依赖性不断增加,在传统运维方案中,难以自动发现业务应用拓扑关系和交易访问路径,难以直观定位业务节点,故障根源定位慢,缺乏对业务系统整体健康状况和运行趋势的监测,无法判定业务系统是否存在运行瓶颈。
- 跨部门排障行为复杂,需较长时间进行故障定位,无法达到精准化报警;同时由于系统和应用间交互关系复杂,往往需要多部门联动、多环节并发式排障,造成异常处置不及时。
- 银行运维数据存储分散,缺乏统一数据标准,存在数据一致性、准确性、完整性不足等问题,不易管理及挖掘价值,难以评估系统当前和未来对资源的需求,及资源分配的合理性。
- 银行数据中心的安全生产水平,依赖于开发、测试、运行以及业务、风险管理、支持保障等多个部门,在实际运维工作中,运维职能难以清晰界定,部门间协同存在客观难度。
- 在银行实际运维工作中,部分场景问题解决过度依赖专家人员,解决方案没有形成知识,难以传承复用,也无法持续扩展打造自身知识运营体系。
第3章 智和信通银行数据中心自动化运维解决方案
银行作为对IT系统可用性、业务系统稳定性要求极高的金融机构,对整体网络架构的可靠性、安全性等方面提出更高要求。银行数据中心的网络运维涉及网络可视化、故障管理、性能管理、业务管理、配置管理、变更管理、应急保障等多方面的需求。同时,因业务的特殊性,客户对银行服务中断和性能问题的容忍度较低,运维需求已由单纯的实现IT支撑,逐步转变为支持业务发展,平稳应对业务量持续及爆发式增长,保障用户体验等方面的需求,因此在系统异构的现状下,如何保障业务连续性和高可靠性建设正在逐步成为银行数据中心运维的重点。
北京智和信通深入分析银行运维需求,针对银行数据中心基础架构复杂度不断增长,服务器数量急剧增加,业务复杂度快速发展的现状,提出自动化运维方案,为银行网络保驾护航。
智和信通银行网络运维平台功能模型
3.1.异地网络架构可视化
目前大型银行基本采取全国数据集中管理的模式,在网络架构上采用“全国一网”的形式。网络架构中软硬件环境涉及的技术复杂,厂商众多。北京智和信通通过网络架构拓扑可视化能力,将网络数据从离线表格转移至平台内,从静态的网络架构数据转化为动态智能拓扑,实现全网设备、资源、链接关系、IP等实时更新、快速定位。
在动态拓扑上展现设备实时状态,通过树形、平面结构联动展示设备间链接关系,通过按片区、按地域、按层级等多种布局方式划分网络,使用不同颜色、粗细、图标表示被管理对象的状态信息,助力运维人员实时了解网络架构及全网运行状态,快速感知资源、链路、流量等异常信息。
银行网络扑示意图3.2.“两地三中心”的灾备架构可视化
为满足银行对业务稳定运行与快速恢复,确立“两地三中心”的灾备模式,即数据中心、同城灾备中心和异地灾备中心,非常重要。但是异地+多中心的模式,给网络可视化运维管理带来极大挑战。
北京智和信通自动化运维方案通过多维管理视图,对不同品牌、类型、版本的网络设备、安全设备、无线设备、存储、主机、中间件、数据库、虚拟化、应用服务、视频监控等IT资源进行统一、全方位、多层次的综合管理,实时分析资源当前性能和运行状态,直观反映资源的动态变化对支撑业务的影响。
银行架构拓扑示意图3.3.端到端全链路可视化
从整体维度到局部维度全面展示银行网络内设备链路各项指标,整体可观测、可告警、可分析、可统计,通过实时监控各个端口以及每条线路的通断情况和性能指标,结合专业的流量监控分析能力,对链路容量进行即时监控,并生成流量分析报告,为容量规划提供依据。
针对银行双运营商网络的模式,对双链路进行管理,通过不同颜色展示主备线路,支持自动切换监控线路,实现主线路掉线设备显示红色,副线路掉线设备显示棕色,全掉线显示灰色。
链路综合信息示意图3.4.全网资源统一监控
本方案实现网络设备信息高频采集,并结合智能算法,实现对整体网络架构、设备运行状态、业务可用状态的实时信息采集和感知。通过对银行网络中海量设备的智能解析和关联分析,结合全流量采集分析能力,形成整个网络通信链路的多端网络流量分析链,助力运维人员从多个维度实现对相应告警的智能分析,解决传统运维监控中关联数据缺失,辅助排障信息不足的问题。
3.4.1.全网软硬件设备统一监控
方案针对银行网络内各类设备、业务系统构建统一、智能监控体系,对业务系统、操作系统、基础设施、主机存储、数据库、中间件、虚拟化、云、数据中心机房等全方位监管。屏蔽厂商、型号差异,全面掌握银行网络整体运行情况和运行效能,能高效、快速、精准进行故障定位诊断。
设备资源可视化显示3.4.2.全网带宽、流量监控与回溯分析
方案基于海量流量数据的存储挖掘,实现对网络流量的侦测分析。通过网络流量分析技术,采集、分析、存储所有网络流量,回溯分析数据包特征、异常网络行为,以多维数据分析和深度挖掘为手段,实现数据包层面的流量追踪,发现潜伏于网络中的未知攻击。
针对银行中业务专线、物联网专线等专线线路管理需求,通过实时监控和定期对专线线路的使用情况进行统计分析,为每条专线的扩容或缩容提供数据依据。
全网流量监控与回溯分析示意图从设备、接口、IP、服务、应用、会话、QoS等层级的实时流量监控和历史流量分析,识别带宽消耗较大的应用程序、服务、协议或 IP 地址,避免网络容量过载,并提升最终用户网络体验。
3.4.3.IP地址分配与管理
银行对IP地址管理的唯一性与安全性存在极高要求,北京智和信通自动化运维方案支持端到端规划、部署、管理和监控IP 地址。通过智能IP扫描能力,定义多层次子网,扫描其范围内每个IP地址的当前状态,包括IP地址,MAC地址等信息,也可以查看IP段内地址使用详情,便于银行信息科技部进行IP地址分配管理等。
通过端口视图及列表视图的形式,展示当前IP地址的使用情况,可查看某个子网的IP现网详情信息,如IP、掩码、主机名、设备类型、现网MAC、现网接入设备、现网接入端口、规划MAC、规划接入设备、使用人等,可批量分配IP地址,保障了IP地址使用的唯一性。
通过黑白名单配置,通过黑白名单功能用来检测用户所关心的设备是否在网络中出现及出现时间,对非法接入设备进行告警处置。支持IP-MAC绑定,对全网MAC和IP进行配对绑定,并周期性对MAC-IP进行检测,当IP-MAC的绑定关系发生冲突时产生告警,保证入网终端安全可信。
3.4.4.视频设备集中监控
本方案可对不同品牌、不同型号的摄像头进行统一运维,融合网络高清、智能分析、多级管控为一体。支持监管视频监控体系涉及的视频前端设备(摄像头、卡口、编解码器),传输设备(光纤收发器、EPON 等)内场设备(网络与安全设备、主机/虚拟机、存储设备)、机房动力环境等多种设备,等统一接入、集中管理。并通过网络拓扑一键自动发现生成能力,直接生成视频系统可视化拓扑,通过定时轮询和事件上报进行可用性和健康度检查。
视频监控效果示意图平台轻松对接多品牌、型号摄像头,通过onvif接口协议和智能化识别技术,实现对视频画面自动侦测、自动提取,主动监控发现和分析出摄像机设备常见的故障,如设备不连通、画面偏色、信号缺失、清晰度异常、亮度异常等问题和原因,并及时在拓扑图中显示出当前视频监控的可用情况。
3.4.5.设备模型库监管无限制
方案采取用户自定义设备类型及其设备资源的方式,赋予用户自定义适配设备的能力,最大可能地支持对不同设备类型的支持。通过自定义设备类型及其设备资源,最大限度上提高了智和网管平台的管理范围,真正实现了对设备及其资源的全面化管理,达到管控万物的目标。
3.5.全面适配国产信创环境
平台以JAVA高级编程语言为基础,从功能块、数据库、界面全部基于统一JAVA技术平台和统一数据关系模型。
智和信通国产信创能力采用Java、HTML5跨平台技术,全面兼容国产化操作系统、数据库、中间件、CPU和虚拟化等,支持包括:中标麒麟、银河麒麟、中科方德、达梦、人大金仓、南大通用、神州通用、华为虚拟化、H3C虚拟化、深信服虚拟化等。
3.6.业务可用性管理
银行业务系统流程从终端用户侧的柜面、网银、手机银行,到ESB业务系统总线,再到后端核心系统,每个环节互相关联影响。本方案以保障业务可用性为基础,通过对承载业务的IT基础设施构建真实的业务模型。
银行业务系统示意图方案通过构建业务系统与部门、IT资源及关键指标的关联关系,整合前端、应用、后台任务、外部服务、数据库及基础设施,直观呈现面向服务的业务系统体系架构;直观、便捷地帮助运维人员对银行内办公系统、交易系统、支付系统、网银系统、基金系统、保险系统、官网、手机APP系统等进行监控,掌握业务的运行状态和健康水平,了解业务动态变化趋势,快速定位故障源,降低运营风险。
业务看板示意图3.7.实时故障预警,及时洞察异常信息
北京智和信通银行数据中心自动运维方案,通过统一的故障管理平台,将各个模块中的监控信息统一采集、分析,实现整个银行网络中各种事件信息、设备故障、网络异常、流量异常等告警,以智能化手段进行标准化的分析、压缩、并归关联等,通过多种方式实时传达告警信息,保证落实到指定人员进行处理,为银行提供主动式的故障解决方案。
全面采集银行内所有联网设备,如存储、服务器、路由器、交换机、防火墙、虚拟化、云、自动提款机、自动存款机、存折补登机、多媒体查询机、票据打印机、开卡机等设备、资源、应用、服务等的状态信息,通过对告警机制以及阈值的设置,第一时间获取准确的告警信息,快速定位告警设备,提升告警处理效率,降低因设备故障带来的损失。
3.8.全覆盖IT资源自动巡检
传统的人工巡检,尤其是应用巡检,缺乏统一的规范、标准,导致巡检的范围和深度都存在一定的局限性,并且是基于人工的手工统计,工作效率比较低,同时耗费较大的人力资源。
本方案依托平台将以前依赖手工进行的日常巡检转换为自动化、定时执行的巡检策略。制定统一的巡检指标、巡检方式、巡检频度等,保证巡检标准化、巡检范围、巡检深度;通过设计巡检作业、数据采集方式、自动化作业调度等实现日常巡检的自动化,代替手工工作,提高效率的同时,解放管理人员,释放管理人员更多的精力,使更多的精力处理更重要的事项。
3.9.网络变更实现“人工+智能”
银行网络对运维的颗粒度和精细程度均有较高要求,运维过程中网络人员将面对每日数以百计的网络变更及调整,相关的变更从用户域访问控制到变更投产,都需要投入大量的人力进行变更内容的评审和准备。在安全合规的前提下,将运维人员从整体的变更流程及变更内容的准备中解脱出来,实现网络变更、设备配置自动化。
3.10.人工运维与故障自愈结合
通过实时发现告警,进行预诊断分析,判断告警类型和级别,如果是一般告警,平台进行自动恢复,如果是严重复杂告警则通过告警通知、运维工单等形式通知运维管理人员,进行人工处理。同时,将只能有专家处理的各类操作和判断转化为可存在于平台内的流程,形成可保留可复用的运维知识。
3.11.全场景实现自动灾备切换
通过一键启停的应用控制和场景触发,简化人工操作,实现快速灾备切换。保障在遇到系统故障、业务崩溃等灾难时,自动将源端业务切换到备端数据中心,从而保障业务的连续性,实现业务的高可用。
3.12.灵活编排,多运维场景支持
自动化运维编排,可实现完全根据用户场景,定制化设计运维剧本,真正将运维任务托管至平台,全面解放人力。
- 开发环境自动化,如软件代码自动化更新、自动化编译、自动化打包、自动化发布预生产环境。
- 应用发布自动化,如服务自动化升级、软件自动化部署等。
- 故障自愈能力,如网口异常自动关闭、磁盘爆满自动清理、非法设备入侵阻断、CPU空间不足自动重启等。
- 定时服务重启,如在工作日每天晚上定时关闭应用,每天早上自动重启应用等。
- 智能批量设备管控,如批量设备策略执行,当设备的配置状态不一时,能够基于当前设备自身的状态自动决策适合于本设备的管控操作等。
- 定期设备健康状况自检,如定期设备健康状态自检、服务运行状态自检等。
- 基于HTTP接口自动化,如基于HTTP接口的工单自动化、审批自动化、业务自动化等。
- 高可用服务自动切换,如主备数据库运行状况自检异常自动切换,服务运行状态检查主备切换等。
- 虚拟化、云服务资源自动化扩容,如在虚拟化环境资源不足时自动化根据实际情况进行扩容。
- 日常运维自动化,如自动化定期执行批处理cmd\sh脚本、自动化定期数据清洗、自动化定期环境检查并导出报表等。
3.13.积累形成运维知识库
在银行日常网络运维服务中,重复的故障和请求约占到70%,只有30%的故障真正需要专业人员来解决,知识经验对提升重复工作的效率起到了至关重要的作用。
通过智和网管平台自动化运维的能力,将只能有专家处理的各类操作和判断转化为可存在于平台内的流程,形成可保留可复用的运维知识,减少因误操作带来的损失,保障运维效率。以规范的流程进行运维作业,保障关键数据的完整合规。
3.14.可视化数据分析
利用图形、图表、图表等易于理解的形式,提取和分析大量复杂的银行网络中各类运维数据,呈现分析结果,从而帮助运维人员在短时间内更好地理解和获得更多的信息,帮助运维部门能够实时了解业务和其所依赖IT资源的运行状况,以及提供系统运维和优化的指示和依据。
适配各种应用场景,二十四小时不间断监控,细粒度可达网络中每个设备、资源和链路。所有的网络故障都一目了然地呈现,大大降低了管理成本,同时也提高了运维人员处理故障的能力,节省的故障处理时间,为运维人员管理网络提供了可靠的保证。
3.15.资产全生命周期监管
对于银行的网络资产管理,采取统一数据标准,对整体网络资产进行梳理和调用,避免资产信息在运维系统和实物间的差异,减少网络运维过程中信息不一致、数据不统一等问题通过平台将资产实物与运维数据库一一对应,解决网络设备在日常运维过程中出现“脱管”或“半脱管”的问题,实现对整体银行网络内IP、ARP、MAC接口数据,访问控制信息,应用系统信息,网络地址及性能容量、设备资产配置容量、机房布线容量信息的集中管理。
建立健全资产台账,实现一机一档,通过自定义多级资产分类,细化资产类别,实现资产分类管控,提高资产精细管理程度。从资产入库、领用、变更、维修、调拨、到报废处置,资产每一步操作均实现完整记录,支持追溯,通过平台实现资产整个生命周期的全流程闭环管理,使得IT资产每一次生命周期变更,都有流程可依、都有迹可循,从而实现全面的IT资产监管。
3.16.定制化运维工单体系
通过方案实现运维工单“无纸化”,支持于设备和故障管理页面快速创建工单,把控故障处理进度,通过工单平台简化故障处理流程,形成自动化故障处理机制,并在每个处理流程的节点上责任到人,实现在快速响应故障的同时,实现兼顾运维流程管控。
通过建立工单服务基准,预设工单在不同优先级、不同状态时,受理人应该响应的时间及未响应时的处理方式,生成工单自动化处理规则,并以多种方式进行通知,避免超时响应提升全流程服务管理质量。
3.17.多级部署适配“全国一网”结构
在“全国一网”数据集中管理的背景下,一旦关键节点出现故障或受到攻击,极可能引发连锁反应,波及全行,造成区域性或全行性异常。因此银行数据中心的运维工作不仅要确保总中心的生产安全,更重要的是要保障各分中心、各个节点的安全运行。全行执行统一的运维标准和要求,横向到边,纵向到底,一体化管理。
因此,北京智和信通为银行采取多级运维平台部署方案,采用综合-区域-设备运维平台-设备的结构,部署多级架构运维平台方案,上级运维平台可以查看下级运维平台(包含其子集)的监控信息,综合运维平台可以管理所有设备,下级运维平台对本区域内单位或本单位网络进行管理。每级运维平台可以单独监控各自的网络设备,也可以由综合运维平台集中管理。
智和网管平台多级部署示意图
实现上级运维平台对各二级单位的网络设备运行数据的采集、管理、存储,集成数据库进行数据的本地存储,并通过安全的传输方式将数据上传至综合运维平台。
部署方案优势:
- 对于银行总部平台,可对接下层分行子平台,支持完整的网络、设备、资源、告警、事件等数据同步
- 对于分行子平台,可完成其下各网点、机房等的设备群交互,可具有平台完整的监控、管理权限。
- 子平台支持横向水平扩展,随着项目规模灵活增设
- 支持联动资产平台、工单平台、呼叫中心等,提供一体化运维解决方案
第4章 方案应用价值
通过部署智信通自动化运维方案,将传统手工绘制的网络拓扑图升级到了网络拓扑可视化,将传统表格式的网络资源管理升级到了应用级的网络资源可视化,将传统的网络定点抓包分析升级到了应用级的网络流量可视化,将传统的经验式故障定位升级到了清单化的自动检查定位。实现“高可用、高性能、高质量”运维管理体系,
在降低故障发生概率的同时,在故障发生后,“早感知、快定位、急止损、优改进”,降低影响范围。不但保障网络基础架构稳定性的关键性能指标,而且通过运维自动化提升整体网络团队的能力。
第5章 标杆案例
5.1.某农商银行双链路监控
由于农商行是移动+电信双线路模式,其核心是想对双线路进行管理,监控各乡镇网点的网络状况,明确移动和电信哪条线路出现问题,及时进行处理。
- 实现对市和各乡镇网点的监控;
- 实现每台设备上电信与移动双ip监控;
- 实现对交换机的详细管理,包括性能、故障等;
- 将拓扑界面投影到大屏幕上进行展示。
需求实现
智和信通提出了智和网管平台+定制开发的方案,基础需求采用智和网管平台成熟功能,并针对农商行双线路的情况进行部分开发。
- 通过开发,实现双线路监控,实现自动切换监控IP;
- 由于农商行的网点型网络结构,设计通过设备颜色对双线路进行展示,主线路掉线设备显示红色, 副线路掉线设备显示棕色,全掉线显示灰色;
- 通过自动切换监视IP,实现对设备不间断的故障、性能等监控。