暂无图片
返回数说广场
柏鹏先
暂无图片
2023-08-14 灾备联盟会员-ACDU会员-数据治理会员
容错:是在局部故障时系统能够稳定运行而不崩溃。 容灾:是在全局灾难来临时系统依然可用,或能够快速恢复。 通常采取冗余、解耦、隔离、降级、切换、备份等方法。 提高系统容错能力的方法: 1、冗余机制:主备模式、多实例部署等方式,在发生故障时,其他组件可以继续工作。 2、分摊策略:避免系统中的热点成来单点故障; 3、松耦合模块设计:减少模块间依赖,采用消息队列等实现解耦; 4、隔离机制:进程/线程隔离,沙箱隔离,容器隔离,服务隔离,系统隔离等措施; 5、降级策略:负载过高时关闭次要服务; 6、故障转移:故障时快速切换到备用实例、节点等,使用户无感; 7、熔断机制:依赖故障时快速失败,防止积压和扩散; 8、重试机制:对不稳定依赖设置重试策略、后补策略等; 9、实时监控和预警:监控异常、快速预警; 10、自动化机制:发生故障时自动进行故障处理、系统恢复、故障转移等。 提高系统容灾能力的方法: 1、数据备份机制:定期进行 本地+异地的多副本(全量+增量)数据备份 2、多数据中心:不同中心相互备份,扩大单节点容量;或由云服务商提供相应的方案 4、异地容灾:不同区域部署应用,地区级故障时进行切换;或由云服务商提供相应的方案 5、故障演练:定期模拟各类故障,评估恢复效果
0
暂无图片 3
395
分享

评论

热门数说