疫情之下,许多企业的业务被迫按下了短暂的“暂停键”。
对大多数企业而言,在IT发生紧急或中断情况后,依然可以维持关键功能的运行是取得成功的关键。
让事件恢复如初,也是当前企业IT系统出现问题后最常用的方法。

作为企业数据存储的“心脏”,数据库在企业IT架构中承担着重要的作用,业务的正常运转离不开数据库系统的健壮运行。对于数据库而言,高可用的实现可能更为复杂,坏一个数据块也可能对业务连续性带来沉重打击,。对用户的服务可用,不仅仅是故障发生时业务能连续提供服务,还需要有数据一致性保证。
据甲骨文公司中国区技术咨询部高级总监李珈介绍,甲骨文在2021年开始为企业客户的IT系统健壮性即业务连续性进行免费的“体检”,即企业高可用性架构(MAA– Maximum Availability Architecture,下面简称为MAA)健康风险评估。MAA是甲骨文超过30年的全球客户的实践沉淀及经验教训总结出来的方法论,来解决全球最棘手的业务连续性需求,为工作负载和要求最苛刻的企业客户提供减少计划内和计划外停机时间的解决方案,同时也是面向服务水平的高可用性参考体系结构。通过对客户的架构进行全方面评估打分,甲骨文帮助这些企业客户能够提前诊断系统中的潜在问题,及时发现工作中的疏漏,并梳理出整个系统架构中需要解决的问题,客户据此可以进行高效整改,让问题解决在“发生前”。目前已经有不少客户为之受益。
在这个风险评估的工作过程中,甲骨文精心设计了一个包含八个维度的风险评估架构,从数据备份、本地高可用、数据容灾、应用容灾、容灾切换、网络配置、补丁策略以及日常维护这些对企业的业务性至关重要的维度对企业客户的业务连续性保障体系进行全面评估。故障/灾难发生的预案、流程,运维团队的切换演练、定期的生产切换等都是平滑实现业务连续性的重要组成部分。通过对每个维度技术及流程的了解与分析,发现短板,展现企业客户业务连续性的健康状况,并给出专业评估意见,从业务连续性的优化方向给出长期、短期的解决方案,从而更好保障业务连续性。
李珈表示,很多企客户的IT系统其实并没有他们想象的牢靠,例如一个采用Oracle的行业大客户,系统运维一直是第三方来运维并且有独立的备份设备,然而在实际的检测过程中,Oracle发现这个客户的备份系统已经有长达一年的时间没有正常备份数据库的数据。如果在此期间出现宕机,那么很可能就给客户带来巨大的损失。也有的客户虽然对数据库进行了很好的保护,设计了本地和异地的容灾数据库,但是并没有在异地数据库设计应用连接,甚至应用服务器层面都没有网络连通,无法实现容灾端应用接管。
为了回馈客户长期以来的支持,甲骨文正在进行业务连续性-系统高可用性架构评估服务,为客户进一步提升系统的健壮性。该评估通过各部门客户访谈的方式,包括系统运维部门、网络管理、数据中心、开发部门等,了解客户的系统架构,从业务需要达到的RTO/RPO数据到目前系统实际做到的RTO/RPO的差距,从八大维度出发,评估客户的备份策略,如是否拥有异地备份,多久备份一次,备份有效性如何验证,备份策略是否满足业务需求,补丁策略怎么去做,多数据中心的距离、网络延迟,采用的数据库容灾方式-同步还是异步等,应用与数据库的连接方式,有没有定期的切换演练和具体的演练手册,人为错误如何防范等等,在高可用架构评估过程中助力客户将存在的问题一一梳理出来,指出系统中的问题并给出专业整改建议,而这一切服务都是免费的。MAA评估也被客户美誉为系统安全的“吹哨人”,这个来形容甲骨文在帮助企业诊断和评估业务连续性风险的努力,再合适不过了。
数十年来,Oracle不断围绕数据核心——Oracle数据库来设计和实施全面的高可用(High Availability)功能,致力于解决最棘手的业务连续性需求。只有作为系统心脏的数据库的健康运行,才能够帮助保证整个业务系统的连续性,从而帮助企业建立真正的竞争优势。
据李珈介绍,甲骨文结合多年服务客户经验设计出了一个面向整体服务的Oracle最高可用性架构(MAA)。MAA是一个Oracle最佳实践蓝图方案,它基于经过验证的Oracle成熟的高可用性技术、端到端验证、专家建议和客户体验。MAA的主要目标是以最低的成本和复杂性为Oracle客户实现最佳的高可用性、数据保护和灾难恢复。MAA由各种HA服务级别协议、配置实践和HA生命周期操作最佳实践的参考架构组成,适用于非工程系统、工程系统、非云和云部署,在今天的中国客户中尤其关键业务系统如核心银行、电信及企业应用等也有大量部署。





如今,凭借多年的积累,高可用性架构也在多个方向取得了长足的进步。例如,Oracle Exadata 数据库云平台等集成系统利用Oracle MAA 内置提供MAA最佳实践和蓝图建议,也是今天最高效,最好的方案。对于Oracle云中的Oracle数据库服务已经集成了MAA的全方位保护。例如,Oracle云(特别是平台即服务产品)采用了Oracle在过去数十年中赖以为客户保障最高可用性的优秀标准。
我们知道,引起服务器故障的硬件问题往往是不可预测的,而且各种数据可用性也会经常导致计划外的宕机,进而影响到工作效率和整体业务运营情况。如需要停机(有时可能长达一天或更长时间)打补丁或进行其他计划内维护操作,数据库可用性都会受到不同程度的影响。
为了保障企业业务连续性和将对业务的影响降到最低水准,并满足不同企业客户应用场景的需求和投资最小化,甲骨文将MAA分为青铜、白银、黄金和铂金四个等级,提供不同级别的HA解决方案以满足不同的RPO和RTO要求,以响应最终用户和业务运行的不同层级的需求。

其中,青铜级可以在生产环境提供一个本地备份,并在其它数据中心保存备份副本。当基础数据因人为错误而受损时,便可在短时间内恢复系统之前的状态,常用于开发测试环境;白银级则将RTO和RPO提升到新的水平,确保数据库能够处理底层基础设施故障和所有意外实例中断,以进一步降低数据丢失的可能,一般应用多采用此部署方式;黄金级可帮助用户实现零数据丢失和快速故障切换,即便在发生大规模中断事件后,企业业务也能够在数秒内快速恢复,关键业务系统多采用黄金级别的部署方式,尤其是金融、电信、政府及制造业等对业务连续性要求非常高的企业;铂金级则针对多数据中心双活的业务连续性要求的企业客户,能够确保多数据中心最高正常运行时间。
李珈表示:“不论是在企业客户应用场景的深入探索上,还是对数据库技术的优化升级上,甲骨文在数据库领域的创新始终坚持从客户需求出发,以用户体验为先,帮助企业客户实现业务转型目标,甚至超越他们的期望。”
我们有理由相信,Oracle高可用性架构(MAA)解决方案将有效帮助不同类型的企业应对突发事件和灾难,为企业业务连续性和数据安全保驾护航。

4月28日 14:00
数聚中国2022
高可用性架构保障业务连续性在线论坛
欢迎大家扫码报名
这场不可错过的数据库技术盛宴!





