项目概况
1、项目背景
移动网管业务是为了更好地调配和管理网络资源及信息、对网络运行情况进行实时监测并根据业务情况以及网络流量使用情况进行网络资源的合理调配。
随着江西移动业务的不断发展,网管系统处理负荷不断增加,系统使用的国外数据库产品版本老旧,系统运行过程中多次遇到数据库产品问题,造成运行中断;此外,我国IT产业发展战略是要自主可控,要用国产的软硬件逐步替代国外产品;该项目是将网管系统中的数据库迁移至网络服务资源池。
2、问题与要求
江西移动网管系统自2005年上线后就没有高可用架构,其间,系统硬件虽做过扩容,但CPU负荷常达到60-70%,内存负荷常达到70-80%,系统存储容量也非常紧张,无法增加数据库逻辑日志时而造成数据库长事务等问题,系统无备份空间做完整的备份。原有主要问题汇总如下:
- 系统单机运行, 存在极大的单点故障隐患;
- 系统硬件资源和性能都不能满足系统业务当前和未来发展的需求;
- 现有数据库产品版本老旧,产品问题常影响系统正常运行;
- 系统业务数据量大, 对系统运行和备份造成影响;
- 系统所使用的小型机运维成本高,支持服务响应不及时。
3、建设要求
本项目建设有以下主要要求:
- 消除系统单点隐患,采用双机高可用集群,提供整个系统高可用;
- 提高系统硬件资源和性能,用性能较高的PC服务器替换现有的性能较差的小型机;
- 采用成熟的国产可控能力平台,降低运维成本;
- 在系统替换过程中,对历史数据进行清理,瘦身现有生产系统;
- 新系统要完成对现有业务的接管和对新业务的规划;
- 新老系统替换要不影响原业务系统运行,提供无缝切换;
4、解决方案
本项目解决方案要点如下:
用较高性能的PC服务器替换现有的国外老旧小型机,用性能较高、容量较大的存储替换国外老旧的存储;
用成熟稳定的国产数据库GBase 8s替换国外老旧的商用数据库;
整个业务系统采用双机架构,使用GBase 8s共享存储数据库集群技术SSC,消除系统单点故障隐患,提高整个系统的高可用性;
- 当有后续业务发展时,可通过增加数据库集群节点进行系统横向扩展来满足未来业务发展;
- 在系统替换过程中,对原系统中的历史数据进行清理,瘦身现有生产系统;
- 在系统替换过程中,为新业务功能留出资源规划,保障新系统可长期稳定运行;
- 针对网管系统应用可重复运行的特点,在新系统追平老系统数据的过程中,不停止老系统的运行;在数据追平后,新老系统并行运行3个月,以防新系统出现任何意外情况,且可对新系统进行一段时间的优化。
新系统的网管读写业务是经过连接管理器在主节点上运行的,而纯读业务是经过连接管理器由SSC辅节点来承担;连接管理器除起到读写分离、负载均衡的功能外,当主节点发生故障无法工作时,连接管理器还可快速地把运行正常的辅节点切换为可读写的新主节点;故障切换时间与故障发生时还在运行的负载有关,在负载不大的情况下,一般20秒之内可完成切换;为了系统的整体高可用,连接管理器也部署为多个,且与数据库服务器分开,防止相互干扰;数据库主、辅节点除了用心跳网络连接来判断彼此的工作状态外,如果心跳网络出了问题,新系统还设置了磁盘心跳,主、辅节点还可通过共享存储进行通讯,以防止系统发生脑裂问题。
5、应用效果
本项目属于国产化产品替换项目,经过测试运行,替换完成顺利,而且替换效果显著,不仅成本优势明显,还提高了性能和应对大规模数据的能力。充分证明了GBase8s SSC技术完全可以替换国外商用数据库RAC功能。
本项目应用效果总结如下:
- 高稳定
新系统已稳定运行一年多,没有发生任何故障;
- 快速切换
在新系统与老系统并行期间, 人为模拟生产系统软硬件故障包括网络故障、电源故障,生产系统均可在20s内进行双机切换,继续为业务提供服务,能够满足用户业务要求;
- 负载均衡
双机辅节点通过数据库连接管理器可承担更多的查询功能,以达到数据库集群的负载均衡;
- 可扩展
当有后续业务发展时,可通过增加数据库集群节点进行系统横向扩展来满足未来业务发展。
本项目主要体现价值如下:
- 使用了国产数据库,技术支持服务的力度比国外产品要好的太多;
- 更换了数据库和其它软硬件,系统整体性能比之前有大幅提高,系统也稳定多了;
- 新系统采用共享存储方式的双机高可用架构,可防止系统单机故障的风险;
- 过去跑在单机上的业务,现可运行在双机上,有利于业务扩展,硬件资源也得以充分利用;
- 随着业务的不断发展,可通过增加集群节点来支撑新的业务负荷。