
随着企业对云服务的依赖程度越来越高,对于云解决方案的要求也越来越高。Microsoft Azure 为企业技术决策者和架构师提供了一个稳定的平台,在这个平台上,可靠不仅是一项功能,更是核心原则。
01
可靠性是云架构赖以生存的基石,表明系统具有持续提供预期结果的稳健性。它不仅取决于服务的正常运行时间,还取决于服务是否严格遵守规定的服务级别目标(SLO)和服务级别协议(SLA)。这些关键基准包括恢复时间目标(RTO)—— 是指发生某个事件后,可接受应用程序不可用的最长时间;恢复点目标(RPO)—— 是指发生灾难期间,可接受数据丢失的最大持续时间。RPO 不仅适用于存储服务,还适用于其他数据服务,如数据库、缓存和队列。
在 Azure 上,可靠性意味着设计的服务本身具有应对故障并迅速恢复的能力,确保将终端用户所经历的中断降到最低。这是通过共担责任模式实现的:微软负责提供云平台(包括其全球网络和数据中心)的可靠性,而客户则需要负责合理设计其解决方案,充分利用这些基础设施能力——将他们对业务需求的理解与 Azure 的强大功能相结合,以确保服务连续性,并达到或超越其 RTO 和 RPO。
02
云可靠性支柱是 Azure 架构的关键组成部分,旨在确保提供可靠的服务:
强大的基础设施
Azure 的数据中心网络遍布全球,具备先进的冗余功能。这种基础设施对于提供应用程序高可用性所需的弹性物理和虚拟资源至关重要。
弹性设计
Azure 的可靠性源于其战略性设计选择。以弹性为设计理念的解决方案能够承受运行压力,并从中断中快速恢复,确保对服务连续性的影响降到最低。
持续运营
严格的监控、及时的事件管理和持续的系统改进是保持 Azure 服务运行健康的关键。这种对持续卓越运营的承诺加强了服务的可靠性,并满足了云工作负载不断变化的需求。
03
Azure 对可靠性的承诺依托于两个核心框架:云采用框架 (CAF) 和良好架构框架 (WAF)。这些框架为组织提供最佳实践、方法论和工具,帮助构建和维护可靠的云解决方案。
云采用框架 (CAF)
CAF 提供了一整套指导方针、蓝图和最佳实践,有助于简化云计算之旅。它深入分析了准备和规划情况,确保基础决策从一开始就支持可靠性。其关键组件包括 Azure Landing Zone,该区根据 Azure 可靠性原则配置网络、安全、身份和治理。
良好架构框架 (WAF)
WAF 专注于五个关键领域 —— 成本优化、运营卓越、性能效率、可靠性和安全性。通过遵循 Azure 的五大架构卓越原则,WAF 能够帮助架构师设计具有弹性的系统。WAF 的可靠性支柱强调了设计高可用性、弹性和可从故障中快速恢复的系统的重要性。
04
每个 Azure 服务都提供内置功能和工具,以增强可靠性。以下是一些重要的工具:
Azure 站点恢复
该服务通过将工作负载从主区域复制到辅助区域,确保业务连续性,支持快速故障转移并在中断期间最大限度减少服务中断。
Azure Monitor 和 Application Insights
这两项服务结合使用,可提供先进的监控、分析和诊断功能,提供实时运营报告,支持快速和主动的事件管理。
Azure 自动化
Azure Automation 以减少人工干预为重点,提供流程自动化、更新管理和配置功能,通过消除人为错误来提高服务的可靠性。
05
通过利用战略设计选择,Azure 能够让系统在中断后快速恢复,同时确保持续运营,这证明了 Azure 遵循可靠性设计原则,致力于提供不间断的卓越服务。
Azure Landing Zone:可靠云运行的基石
Azure Landing Zone 是预定义的、可定制的环境,遵循 Microsoft 的云采用框架。它们提供了一个结构化的设置流程,其中包含了安全性、合规性和治理方面的最佳实践,为您的云计算之旅奠定了可靠的基础。在设置您的区域时,请考虑以下与可靠性相关的因素:
网络拓扑:利用 Azure 强大的网络功能,设计强调冗余和故障转移能力的拓扑结构。
资源组织:对资源进行结构化设计,使其与可靠性目标保持一致并便于管理。
身份和访问管理:实施严格的安全控制,防止未经授权的访问影响可靠性。
治理:建立政策以确保操作一致性和合规性,为可靠性保护添加另一层保障。
欲了解更多信息,请参阅 Azure Landing Zone。

关键任务的可靠性:确保大规模的弹性
对于关键任务服务而言,可靠性至关重要,Azure 提供了一套强大的工具和战略方法,以确保系统的弹性:
地理冗余:对于关键任务应用,实施多区域架构至关重要。Azure 通过将服务分布在多个地理位置,保障区域性故障不会影响整体系统。这种方法不仅增强了容错能力,还能使应用程序在出现局部中断时仍能正常运行和访问。
灾难恢复:为应对重大或意外灾难,Azure Site Recovery 为虚拟机提供了无缝复制服务。该服务能够快速、有序地进行故障转移到备用区域,确保关键应用的停机时间最小化。复制的颗粒度使企业能够根据其恢复时间目标 (RTO) 或恢复点目标 (RPO) 量身定制灾难恢复计划。
自动缩放:Azure 的自动缩放功能可根据当前工作负载动态调整资源数量,无需人工干预。该功能在使用量激增或不可预见的负载增加时,能够满足性能预期,并在工作负载减少时优化资源利用率。这种弹性对于维持稳定的性能水平和运行效率至关重要。
监控与诊断:提供强大的监控工具(如 Azure Monitor 和 Azure Application Insights)可以让组织实时了解其运营状况。这些工具不仅能提供可操作的见解,还可设置自动警报,检测异常,并通过趋势和模式预测潜在问题。
通过将这些实践集成到架构结构中,Azure 上的关键任务服务可以实现持续的可靠性,提供一致的服务水平,增强用户的信任与满意度。
欲了解更多信息,请参阅 Azure 上的任务关键型基线体系结构。

06
在云计算中,可靠性不仅仅是拥有正确的工具和服务;更重要的是将这些元素融入进一个具备弹性和容错能力的架构中。构建可靠的 Azure 架构需要从全局视角出发,覆盖计算、存储、数据库和网络资源等多个方面。
为了说明这一点,让我们深入了解一个参考架构,该架构展示了 Azure 在实际应用中的可靠性原则。该架构展示了各种 Azure 服务如何相互连接,以建立可靠的云计算基础架构,从而确保无缝、持续的运行。
该参考架构涵盖了多个 Azure 服务,每个服务都从不同方面为整体可靠性做出贡献。以下我们将深入剖析此架构,了解各组件如何相互关联和支持,共同构建一个可靠且具有弹性的环境:
Azure 计算服务
Azure 虚拟机 (VMs):是应用和服务的核心。为确保其可靠性,可利用 Azure 备份服务,该服务提供自动备份解决方案,可保护虚拟机免受数据丢失并方便恢复。频繁而稳定的备份可保护数据免遭意外删除、损坏或攻击。
Azure 站点恢复 (ASR):作为 Azure 备份的补充,ASR 提供了灾难恢复解决方案,通过将 Azure 虚拟机复制到不同的可用区或区域,确保在出现故障时可以快速切换到位于辅助站点的虚拟机。这种设置可确保停机时间最短,并遵守 RTO(恢复时间目标)。
Azure Kubernetes 服务 (AKS)
备份和恢复: 现代应用程序的结构通常包括由 AKS 编排的容器化解决方案。可靠的运行意味着对 AKS 集群数据部署一致的备份,包括持久卷 (PV) 备份、Kubernetes 资源配置和在集群内运行的数据库。
多区域群集: AKS 支持跨多个区域部署集群,从而提高应用程序的弹性和可扩展性。您可以使用 Azure 流量管理器和 CosmosDB 等服务跨区域分发用户流量和数据,并使用 Azure Site Recovery 协调故障转移方案。
Azure 数据库服务
地理复制:Azure Blob 存储和 Azure 队列存储等存储服务采用地理复制策略,跨地理分布的数据中心同步数据,从而确保数据在区域性故障中的可用性。
冗余存储:冗余选项,如本地冗余存储(LRS)或区域冗余存储(ZRS),可确保数据副本安全地存储在一个区域内或一个区域内的多个位置,从而进一步加强数据保护措施。
自动备份:像 Azure SQL 数据库和 Azure Cosmos DB 这样的 Azure 服务,提供自动备份功能。自动备份提供了一种低维护成本的数据库保护方法,使您能够在数据损坏或丢失的情况下迅速将数据库恢复到以前的状态。
地理还原:除了常规备份之外,地理还原功能还允许跨不同地理区域还原数据库。在灾难事件中,这种功能对于保持业务连续性和数据可用性至关重要。
通过遵循这些架构原则,您可以设计出一个强大的、在每一层都具备弹性和可靠性的系统。从计算资源到数据存储,这种架构都能促进灾难恢复、高可用性和运营有效性的协调一致。
一个良好构建的架构是实现 Azure 高可靠性的关键要素。参考架构是将 Azure 弹性原则集成到应用程序中的蓝图。参照这样的方法,您设计的生态系统不仅能应对突发灾难事件,还能保持服务连续性和数据完整性,从而达到高可用性标准。
在 Azure 上开始可靠性之旅意味着对卓越运营的承诺。通过利用 Azure 的全球基础架构、积极主动的设计策略以及全面的工具和最佳实践,您可以为可靠、可扩展和弹性云环境铺平道路。借助 Azure 强大的可靠性功能,提升您的云计算解决方案,使其能够应对任何挑战。





