Cloud Pilot系列：1. Google Cloud 数据中心网络架构

s09g的技术博客 2022-06-22

2833

本文首发于

由于最近Sunnyvale的restack，我们组从MP3搬到MP6。

周末去办公室收拾东西的时候，路过广场前面的Data Center大箱子，隔着玻璃瞧了一眼里面的结构。

传统的网络架构称为接入-汇聚-核心架构 access-agg-core network architecture

起码在我14年考CCIE的时候，这种方案在业内还相当普遍。但是上过计算机网络的都知道，这种方案优势和缺陷都很明显。

优势在于汇聚层之间通过桥接进行二层转发：1.不需要过多配置，可以依靠网桥自学习。2.(在当年)硬件转发也比查路由来的快 3.可以构建不同于IP的企业专用网络协议

然而一旦网络规模变大，问题也就来了。网桥自学习会有两个问题：广播风暴和泛洪。于是分别引入了STP生成树协议打破网络环路，又用VLAN把物理网络划分成小规模的逻辑网络来解决泛洪过多。但是STP阻止环路的同时又造成了网络带宽减半。引入了per-VLAN spanning tree之后，又限制住了VLAN的数量。

但是在云计算场景下，即使打了一层层的补丁 access-agg-core
还是无法支撑整个数据中心。一方面是弹性计算带来的接入终端大量增加，虚拟机和容器可能在任何时候加入网络引起大规模拓扑变化。另一方面，随着单体服务向微服务转变，服务器间的通信流量远远超出客户端与服务器的通信流量。

Clos网络拓扑

准确说，现在云厂商使用的是Clos拓扑中的leaf-spine架构。leaf交换机作为ToR (top of rack)与服务器处于同一个机架，每个leaf交换机连接到所有spine交换机。spine交换机仅连接leaf交换机，不提供别的功能。

access-agg-core
有一个问题，每个园区的汇聚层只支持两台汇聚交换机。就这两台还需要用vPC虚拟端口通道(virtual-port-channel)
，消除阻塞，利用带宽。Clos拓扑直接放弃了STP控制交换机互联，而使用IP路由来作为主要的数据转发模式，桥接（2层转发）仅发生在同一个rack内部。

但是Clos拓扑也有一个问题，spine和leaf之间需要全联通。因此园区内能接入的终端设备受到交换机端口数量的限制。而且leaf交换机作为ToR，每个机架上的服务器数量也是有上限的。所以一个二层leaf-spine架构能接入的终端也就是几千而已。

多层Clos

二层Clos拓扑显然是不够的，大家基本上都会拓展Clos的层数。比较常见的方案有两种，先说个友商。

Facebook在2014年发表了一篇博客《Introducing data center fabric, the next-generation Facebook data center network》，其中介绍了他们将4个fabric交换机和48个ToR作为一个Server Pod
。Server Pod
算是他们的标准网络单元。

然后又在园区内创建了4个独立的spine plane。Server Pod中的每个fabric交换机和1个spine 交换机连接

但是很快他们还是遇到了扩展性的问题，事情就是从这里开始走偏了：Facebook开始改进交换机了。Facebook的第一代fabric交换机产品叫6-pack，因为它使用了6个Wedge。Wedge是Facebook自研的ToR，搭载了基于Linux自研的FBOSS网络操作系统。但是很快6-pack不够用了。于是Facebook拿了12个Wedge做了一个二层Clos结构(4个spine+8个leaf)，然后放进一个机箱，取名Backpack。

Backpack的定位和6-pack差不多，放在每个server pod里作为fabric switch，向北连接Spine Plane.

但是没过两年，网络瓶颈又到了，这次还是跨园区的。于是Facebook又拿了一堆Wedge（这里已经是二代Wedge了，叫做Wedge 100，目标是支持100G的链路，而第一代的算是Wedge 40），同样是二层互联，做了一个叫做Fabric Aggregator的东西。

这样一来，Facebook给大家表演了一个9层Clos，通过 Fabric Aggregator 从一栋建筑物中的机架到另一栋建筑物中的机架的路径最高可达 24 跳。这种把2层Clos构成虚拟机箱的做法确实有一些互联网公司在用。不过AWS、Azure、GCP 三大云厂商通通选择另一种方案：super spine
：将二层Clos作为一个Pod模型，向上再加一层spine交换机。

Super Spine

2015年，Google发表了一篇文章《Jupiter Rising: A Decade of Clos Topologies and Centralized Control in Google's Datacenter Network》介绍了05年-15年，谷歌10年间的五代Clos网络架构。

其中第五代的架构叫做Jupiter Network Fabrics
，可以视为一个三层Clos。leaf交换机还是作为ToR，向北连接到叫做 Middle Block
的spine交换机。Middle Block
和ToR组成一个集群（相当于Facebook的Server Pod
，内部是一个二层Clos），论文上叫做Aggregation Block Superblock
。MiddleBlock
向北还有一层super spine
，论文上叫做Spine Block
。

对比云厂商的Super spine方案和Facebook的虚拟机箱方案，个人感觉由于架构设计的不同，二者扩展的方向会受到限制。虚拟机箱方案需要一开始就对 spine层做好规划，比如Facebook一开始规划了4个spine plane，几轮扩展之后依然是4个spine plane，最多就是plane内的交换机数量有所增加。每次扩展都接入了更多的server pod，但结构上依然存在上限。

Super spine方案则相反super spine的数量可以一直增长，加入更多super spine交换机。但是每个新加入的super spine都要和原有的Pod全互联。从Pod的角度看，每加入一个super spine，Pod就要额外增加连接。为了解决这个问题，Google在spine 层（论文中的spineblock
）和Pod层（论文中的superblock
）之间加入了Apollo Fabric
。Apollo结构解除了spineblock和superblock的直连，但又能够动态地调整spineblock和superblock的连接关系，高效实现了全互联，并且一个额外的好处是能够动态地调整网络流量的分布。

Apollo的本体是一组小镜子，并且接入了SDN，可以通过远程编程来控制。这种设备叫做Optical Circuit Switch (OCS) 光路交换机或者矩阵式光开关交换机。只需要简单地调整镜面的角度，就可以实现新加入的super spine交换机和原有superblock的连接关系。

2022年的ONS峰会上Arista和Intel的发言人都有专门的演讲介绍现在光学器件的进展。

后续

Jupiter 1.0发布之后，Google又陆陆续续升级了Jupiter 2.0, Jupiter X, One Jupiter。尝试了引入更多的光学器件，结构上也验证了一些spine-free方案。到如今也不知道是第几代了，Google很少发布这个方向的论文。但是参考同期Facebook的进度，看来应该是没有获得预期结果。

Facebook在2019年前后又一次达到了结构上的瓶颈。这次终于是做出了重大改动，放弃了原来的虚拟机箱方案。新的minipack方案是单层的ASIC设计，但是性能强的多。新的F16网络下跨建筑物最远只需要8条，内部的跳数也减少了一半。

不过Facebook 同样发现非Clos拓扑结构的能耗很大，而光学器件在几年之内都不能满足链路规模的需求。

Acknowledge

本文写作时，加州刚刚进入6月，很多地方长了Foxtail。有一天晚上Yuki的后脚一直在抽搐，仔细检查发现趾缝处在流血。于是我们马上去了医院，傻狗喜提了一千三百刀的急诊手术。接下来的两周都绑着绷带，于是就有了这张穿着鞋子的照片。

网络架构交换机环路交换机数据中心汇聚层交换机

文章转载自s09g的技术博客，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

Cloud Pilot系列：1. Google Cloud 数据中心网络架构

Clos网络拓扑

多层Clos

Super Spine

​后续

Acknowledge

评论

后续