本文分享自华为云社区《GaussDB跨云容灾:实现跨地域的数据库高可用能力》,作者:GaussDB 数据库。
金融、银行业等对数据的安全有着较高的要求,同城容灾建设方案,在绝大多数场景下可以保证业务数据的安全性,但是在极端情况下,如遇不可抗力因素等,要保证数据的安全性,就需要采取跨地域的容灾方案。
GaussDB容灾方案
跨地域容灾,通常是指主备数据中心距离在200KM以上,主机房发生极端灾难的情况下,备机房数据仍具备能继续提供服务的能力。在跨地域机房的建设上,大部分客户采用不同的云管平台来建设跨地域的数据中心,也有部分客户采用同一个云管平台的跨region能力来进行建设。当前,GaussDB提供了如下多种容灾方案,用于应对多样的客户化场景:
1.采用单集群多副本的模式进行跨地域机房部署。
该方案采用单集群多副本的容灾方案,通过将集群内不同的副本部署在不同的机房来实现跨地域的容灾能力,该部署方案有实现简单、成本较低、容灾的RPO=0等优点。但是单集群多副本的容灾方案依赖主备机房之间的距离,地理距离的增大会影响到生产服务的性能,而且单集群容灾无法防御集群内部组件级的故障。
2.同城双集群容灾。
此方案使用同一个管控云平台、双region的容灾方案,该方案可以很好地防护集群内组件级的故障,主备集群是公用同一个云平台进行容灾管理的。当主集群连同云平台受损后,此时无法从云管控平台对灾备集群进行一键故障拉起,需要底层数据库层面执行灾备库拉起的命令,会增加业务恢复的难度。
3.在不同的云管平台下,采用双集群的方案来保证主集群性能以及故障域隔离,管理面之间调度依赖。
该方案针对使用同一个云管控平台的弊端,将主备集群分在两个云管控平台,当发生不可控因素导致主集群连同起所在的云管控平台同时故障的场景下,可以单对灾备集群所在的云管控平台下发容灾升主,从而快速将灾备库拉起接管业务。
GaussDB跨地容灾技术实现
GaussDB容灾方案突破了容灾能力对云管控平台的依赖,通过统一GaussDB主备集群间容灾交互的标准,实现了业务实例和容灾实例在不同的云管控平台分别管理的方案。
在最大限度保证数据库业务容灾能力的前提下,简化了跨云容灾的运维难度,不受云管平台的限制。当业务因日常演练要求或运行故障等紧急突发事件导致业务中断后,通过多灾备云建立的完整数据库网络计算资源,可在分钟级内完成容灾集群的拉起实现日常演练或故障场景下的业务接管,保障业务的高可用。
技术架构图
GaussDB容灾基于内核的流式复制能力,搭建阶段通过数据建立机制将主集群上的数据全量同步到灾备端,同时将主集群的增量xlog日志同步复制到灾备集群,等待灾备集群将主集群全量日志回放完成后执行主集群同步来的xlog日志,保证主备集群的数据最终一致,从而实现容灾实例对主集群数据库的实时容灾能力。
GaussDB跨地容灾业务流程
在同云及跨云场景下,架构统一的容灾能力,支持容灾搭建、容灾倒换、容灾升主以及容灾解决流程,弥补产品空白,降低客户跨云成本。
1.容灾搭建
进入“云数据库 GaussDB”,选择“容灾管理”,点击“创建容灾任务”。
选择主实例列表和输入灾备实例的容灾IP,数据库名称密码后确认开启容灾搭建。其中灾备实例容灾IP在灾备实例的实例详情页获取。
2.容灾关系搭建完成后,可以对容灾信息进行实时监控,包括容灾状态、RPO、RTO等关键指标,方便用户监控容灾状态
3.容灾主备切换
在容灾搭建完成后,可以在主集群或者是灾备集群上点击主备切换完成容灾倒换。容灾主备倒换可用于用户的容灾演练场景,提供了主集群降备,容灾集群升主的能力,保障了容灾主备集群的数据一致性。
容灾主备切换时,首先会检查主备集群均是正常且主备集群容灾的xlog流式复制正常,当开始主备集群角色互换时会将主集群设置为只读,暂停主集群对外提供的写服务。待灾备集群将主的xlog日志回放完成后同步进行主备集群角色切换。此时原灾备集群升为主集群,原主集群降为灾备集群,并且重新建立容灾关系之间的xlog日志复制。
4.容灾故障切换
容灾关系正常建立后,如主集群发送故障需要拉起灾备集群对外提供服务的时候,在灾备集群所在的容灾管理页面点击容灾升主完成容灾切换。容灾故障切换用于主集群故障的场景,将容灾集群快速拉起,保障跨地域的业务高可用。