什么是分布式级联故障?
我们做不到总是完全隔离故障:被高负载压垮的进程会增加集群其余部分的负载,从而使其他节点更有可能发生故障。级联故障是从系统的一部分传播到另一部分、扩大了问题的范围。
级联故障是由于正反馈循环并且随时间的增加所产生的故障。典型的表现就是最初由单个节点或子系统故障触发连锁反应。
单节点故障后,将会把负载分散到系统剩余的节点上,从而进一步增加了系统故障的可能性,进而导致恶性循环或滚雪球效应。级联故障主要有三个特征:1、可以在短时间内关闭整个服务。2、受影响的系统不会像处理更常见的问题那样恢复正常,而是会逐渐恶化,最终导致依赖于人为干预。3、在最坏的情况下,级联故障可能会在没有警告的情况下突然发生,因为负载分布和故障会迅速发生。