沃趣技术专栏丨etcd基础入门分析

沃趣科技 2024-08-22

117

etcd作为k8s的核心，有着举足轻重的地位。但它又作为管理组件，相比业务组件，它通常会被部署在性能比较差的虚拟机+hdd上，（性能好的机器优先给业务使用），这也导致相关性能问题的产生。

etcd虽然资源占用少，存储最多2g，但对于存储io与网络有着很高的要求。将从三个方面来分析其原因：

etcd选举与心跳

etcd 共有三种角色：

Follower、Candidate、Leader

只有Leader与Follower可受理读写请求。角色之间状态转换如下：

etcd默认选举超时(election timeout)为1s,很敏感，同时，为了减小网络抖动导致心跳失败，所以要求心跳间隔小于 (election timeout)/5，保证一次超时中能发5次心跳。而默认心跳间隔为100ms,可发10次。

而一次选举，会触发中间状态preVote与选举状态candidate,这个状态是无法提供服务的，客户端会在选举结束后，收到Leader changed的应答，业务是有感知的。

etcd的读写流程是比较复杂的，为了保证数据的全局一致性。而为了提高性能，etcd节点之间的数据会聚合发送，而消息处理是FIFO算法。所以，单个的消息处理也会导致整体的性能，尤其是当中如果出现磁盘读写慢时。

etcd三个角色分别对应三个消息处理函数：

stepLeader、stepCandidate、stepFollower

这些消息全部都是异步处理。

下面基于raft官网（https://raft.github.io/）的动画模拟了多节点同时选举的情况：

下面模拟主记录日志，多数节点收到后，异常的情况：

当少数节点时，会被丢弃⬇️⬇️⬇️

etcd写入流程

只有leader可以写。Follower收到写请求时，会转发到leader，再将返回返回客户端。

Leader写请求处理流程⬇️⬇️⬇️

写数据时序图⬇️⬇️⬇️

一些注意点⬇️⬇️⬇️

当主节点触发写事件W1，etcd2反馈后主节点提交
下一个写事件W2，etcd2未响应，etcd3在未响应W1之前，不会响应W2（会拒绝）
当etcd3拒绝时，主节点会将上一个事件W1重发给etcd3（这里有一点特殊情况，当etcd3继续拒绝时，主节点会继续前移，当主节点前移无事件时，会发送全量快照给etcd3）

所以当etcd中某节点下线时间过长，加入集群时，为了补齐数据，会加重集群的网络压力与主节点压力。

etcd读取流程

为保证全局一致性读，所有读请求都会转发到主节点中。

Leader读请求处理流程⬇️⬇️⬇️