摘要
随着技术快速发展,尤其是人工智能、大数据等新兴技术的应用,对数据安全提出了新的挑战,平台部署在机房云资源池,当云平台因人为错误原因出现基础设施故障,或自然灾害使得云平台的机房出现停电、断网等故障,都将使平台可能无法正常访问, 为了保障业务的持续运营,当发生突发故障事件时,系统业务服务不中断,不影响用户体验,本文章提出异地容灾方案,通过容灾设计方案、容灾数据同步机制、容灾性能要求等方面提出解决措施,由于主、备双节点按双活机制共同承载平台业务,在出现故障时,系统可很短时间内快速恢复业务,保障系统关键业务和数据安全。
关键词 异地容灾;数据同步机制
平台部署在机房云资源池,当云平台因人为错误原因出现基础设施故障,或自然灾害使得云平台的机房出现停电、断网等故障,目前平台以单节点部署,当故障发生时可能导致服务中断,影响用户体验和满意度,更严重还可能影响数据安全导致业务数据丢失。
为了保障业务的持续运营,当发生突发故障事件时,系统业务服务不中断,不影响用户体验,本文章异地容灾建设方案,通过容灾设计方案、容灾数据同步机制、容灾性能要求等方面提出解决措施,由主、备双节点按双活机制共同承载平台业务,在出现故障时,系统可很短时间内快速恢复业务,保障系统关键业务和数据安全。
一、容灾设计方案
主备双节点按双活架构进行部署实施,节点间各自独立运行,由于业务受理平台和省内数据同步接口不支持双节点的同时分发,需要由平台新建数据分发模块,以满足双节点双活的话务承载。
(一)话务承载负荷分担方式
双节点的信令网关分别与核心网大区Volte-IMS、省固网IMS对接,根据配置的权重分担对应比例的话务,达到双节点话务负荷分担的模式。核心网监测某节点异常或无心跳时,自动将话务切换到另一节点。
(二)业务受理主备方式对接
主备双节点平台业务网关模块各自部署,由主节点业务网关数据交互与分发模块与业务受理系统对接,实现业务工单同步,包括业务数据及铃音文件。主节点数据交互与分发模块负责向备节点同步数据,同时主备节点可向业务受理系统上报话单数据。
二、容灾数据同步机制
(一)灾备数据交互与分发
实现双节点平台并同运行,需实现节点间数据同步,本次针对灾备功能增加数据交互与分发功能。
(二)数据分发能力身份校验
该能力接口负责与系统按照通用数据交互模型进行数据同步,并对外部系统的身份和数据进行初步的校验。
(三)多节点数据分发
采用一对一的方式为各个厂家开发了一套专属的同步系统。这种方式造成同步系统过多,采用单平台部署时未见弊端,但多平台部署时部署成本倍数上升。
此功能集成了所有对外接口,实现了多合一,极大地减少了同步系统,部署和维护成本大幅度降低;可以无感知地增加和减少部署的平台;保证多平台间的数据一致性时,减少损耗业务的响应速度。
(四)异步重发策略
数据交互分发策略 ,对每一份数据进行状态标记,放入MQ消息队列中,由消费者对从节点进行数据分发。分发失败的数据会更新状态标记,重新进入MQ消息队列再次尝试分发,对重发多次后依旧失败的数据持久化保存。重发机制上,先分发主节点,如主节点成功,再分发给多个从节点;如主节点分布失败,将不会再分发给从节点。
(五)节点切换
当主平台无法受理业务时,需要自动切换至从节点,并能够平滑地承接新地业务。采用从节点异步分发机制,在扩建内部平台时可以做到无感知,不影响运行中的平台。
三、容灾性能指标要求
由于异地容灾采用双活机制,双节点负荷分担话务业务,当主系统因为故障(如火灾、地震等)停止工作时,另节点接管100%话务业务工作,确保业务的连续性和数据的安全性。
(一)异地容灾两个关键指标(恢复时间目标、恢复点目标):
容灾策略 | 关键指标类型 | 指标值 | 备注 |
放音话务采用双活 (负荷分担) | 恢复时间目标(RTO) | 5秒 | 当业务从中断到恢复正常所需的时间(取决核心网大区交换机时间) |
恢复点目标(RPO) | 1天 | 指能容忍的最大数据丢失量,即业务恢复后,恢复的数据所对应时间点(数据库独立,不影响) |
总结
平台实施异地容灾功能,解决因人为错误或自然灾害原因导致大面积故障事件时,避免系统业务服务不中断,保证用户良好体验,保障业务的持续运营,由于双节点按双活(负荷分担)机制共同承载平台业务,在出现故障时,几乎不影响用户体验;由于业务开通数据按主备方式建设,如故障发生时,需要客户端修改同步接口地址,故障解决时,需要手工同步故障点的数据库数据。
此容灾方案为异地机房独立部署平台节点,每个节点拥有完整的应用和数据服务能力,通过应用层的逻辑来实现容灾,不用涉及到云平台层的数据库间数据同步策略,实施简单,运维管理成本低