Overlay网络已在企业、数据中心和服务提供商网络无处不在。但其中许多缺乏可管理性和可扩展性,从而给网络带来了复杂性。行业标准BGP EVPN VXLAN是一种融合Overlay的解决方案,可在IP底层上提供统一控制平面的第2层扩展和第3层分段的技术。支持在边缘灵活部署多租户单播和多播服务,Overlay端点可以放置或移动到IP网络的任何位置,独立于Overlay寻址和子网分配。这已不是啥新技术,今天撸篇文章普及EVPN VXLAN网络中让人难已理解的集中式、分布式非对称IRB和对称IRB路由架构。(从下图开始吧!)。

在跨不同用例部署Overlay时,还需要考虑其它因素,包括安全和流量工程。但可达性是所有Overlay用例的共同点。对于独立于寻址和子网划分约束的灵活工作负载放置和移动性,多租户Overlay网络必须提供以下可达性:
同IP子网下的租户
不同IP子网的租户
由于子网内Overlay连接是通过跨Fabric边缘和可选边界设备部署的第2层VPN桥接服务实现的,因此不同子网间的端点存在多个Overlay路由连接选项。下面详细介绍并比较三种Overlay任播路由架构之间的权衡:
集中式路由
分布式非对称路由
分布式对称路由
1、集中式任播路由
集中式路由模型将端点连接到提供VPN桥接的第2层EVPN网关。这使得子网内流能够跨越Overlay网络,同时通过指定的集成路由和桥接(IRB)GW集中所有路由到不同子网中的端点,无论是在Fabric内部还是外部。
每个Overlay子网的第一跳路由使用托管在一个或多个IRB GW节点上的子网任播GW进行部署。定义这种Overlay路由体系结构的一个关键属性是,子网的第一跳路由功能与为该子网提供子网内桥接服务的EVPN L2-GW边缘分离。这种解耦导致整个Fabric中Overlay端点的第一跳路由“集中”在指定的IRB节点上。注意,每个子网的任播GW仍然分布在这些“集中式”IRB GW节点上。
为同一组IRB节点上的所有Overlay子网部署第一跳任播路由,虽然不一定需要,但通常这样做是为了操作简单和优化路由。这种第一跳路由功能也很常见,它托管在边界节点上,边界节点也充当与外部L2或L2/L3的互连GW。可选地,这些IRB节点也可以充当边缘节点并连接到本地Overlay端点,从而产生如下图所示的模型。

控制平面操作
集中式方法本质上使用EVPN Overlay作为第二层VPN,在EVPN主机路由通告中包含主机IP和主机MAC是可选的。主机路由由出口L2 GW通告,具有第2层属性,在入口L2网关和集中式IRB网关上,这些属性导致:
将主机MAC导入控制平面中的MAC VRF。
通过第2层VPN封装和通往出口GW的隧道实现主机MAC可达性。

此外,IRB网关节点还安装与远程主机IP的第3层路由。可以通过以下方式在IRB网关上学习目的主机IP到MAC绑定:
L2网关通过窥听主机IP来学习主机IP,并将主机IP包括在EVPN主机路由中分发。
或通过主机的ARP和ND数据包在数据平面学习。
注意,到远程L3主机的可达性仍然由通过第二层VPN隧道到出口网关的主机MAC可达性来解决。此外,IRB网关还可以主动在EVPN控制平面中通告任播网关的MAC/IP,以避免来自冗余任播网关的重复ARP响应。在L2网关上,这导致MAC VRF中的任播网关MAC的L2可达性,以及来自主机的任播网关IP ARP请求的本地ARP抑制。
数据平面操作
对于数据平面操作,发往远程主机的子网内流量在入口L2网关上通过隧道桥接到出口 L2网关,并由出口L2网关通告第2层VPN封装。在出口L2网关上,此第2层VPN封装映射到MAC VRF,其中数据包再次桥接到本地主机。

去往任播网关MAC的子网间流量在入口L2网关上通过隧道桥接到集中式IRB网关之一,该隧道具有IRB网关通告的第2层VPN封装。然后数据包在IRB网关上通过第3层路由到目标主机。这导致数据包被主机MAC重写封装,该重写通过隧道解析到出口L2网关和出口L2网关通告的第2层VPN封装。在出口网关上,此第2层VPN封装映射到MAC VRF,数据包再次桥接到本地主机。
控制平面可扩展性——受限于“集中式网关上的所有子网”
控制平面可扩展性受到以下事实的限制:作为集中式任播网关集群的每个IRB节点都需要编程:
所有Overlay子网的第3层IRB接口,它是第一跳网关。
这些子网中所有Overlay端点的第3层邻接。
MAC VRF适用于所有Overlay子网,它是第一跳网关。
子网中所有Overlay端点的MAC路由。
所有Overlay端点的IP主机路由。
将隧道Overlay到所有边缘节点。
将所有Overlay子网集中在同一组IRB节点上。这种情况下,子网和端点的大小受到IRB设备的单个L3接口、L3层邻接和MAC路由规模的限制。注意,在此模型,属于同一任播网关集群的冗余节点不会对整体结构规模产生影响,因为需要在所有任播网关节点之间复制相同的转发状态。
控制平面可扩展性——以最优路由为代价
或者,不同子网的第一跳路由服务可以在多个集中的任播网关集群之间进行负载,以减少每个IRB节点的规模。


这种方法中子网间路由会在入口L2网关上桥接到集中式IRB网关,然后才被路由回入口L2网关。

操作简单
尽管存在这些次优路径和扩展性问题,但出于运维原因,这种方法在某些用例中仍然是一个很好的折衷方案:
这种方法为指定节点上的所有Overlay子网提供和管理第一跳路由和相关路由策略的操作简单性。例如,对于Overlay子网跨越园区和DC的用例,此方法允许您在中心点管理子网间和外部路由策略。
转发类似于传统的IRB,易于理解、部署和操作。
EVPN集中式路由设计原则上与传统的二层网络设计保持一致,其中路由功能集中并与二层接入设备分离。EVPN第2层Overlay可以被认为是替代传统的第2层接入网络,EVPN-IRB功能是传统的L2/L3边界。因此,从这种遗留架构过渡在概念上更容易。
集中式任播网关冗余
跨冗余IRB网关的集中式任播网关方法引入了额外复杂性:
如果L2网关仅在EVPN控制平面中发布主机MAC路由,则主机IP通过ARP和ND在任播网关上学习。由于可以在任何冗余网关上学习主机IP,因此任播网关必须实施额外的机制来同步它们之间的主机路由。或者,L2网关必须通过snooping实现MAC-IP学习,并通过EVPN控制平面通告主机MAC和IP,以便任播节点通过EVPN学习主机IP。
主机的任播网关ARP请求在Overlay中泛洪,因此导致来自冗余网关的多个ARP响应。为避免这种情况,任播网关必须通过EVPN预先通告网关MAC-IP绑定,并且L2网关必须实施本地ARP抑制。对于VXLAN结构,还可以跨冗余网关使用任播 VTEP,以避免多个ARP响应。
2、分布式非对称路由
分布式非对称是集中式任播路由方法的一种变体,将第2/3层路由边界推送到Fabric叶节点。在这种方法中,Overlay子网的第一跳任播网关功能部署在作为IRB网关(而不是L2网关)运行的所有叶节点上。

控制平面操作
与集中式IRB方法非常相似,这种方法也使用EVPN Overlay作为第2层VPN。稍有不同的是,现在EVPN主机路由通告中需要主机IP以及主机MAC。与集中式IRB操作类似,主机路由由出口GW通告,具有第2层属性,在入口网关上,导致:
将主机MAC导入控制平面的MAC VRF。
通过第2层VPN封装和通往出口网关的隧道实现主机MAC可达性。
数据平面操作
虽然这种方法使EVPN路由和桥接功能共同位于EVPN叶节点上,但它具有与集中式任播网关相同的转发语义。叶节点IRB上的Overlay路由功能将数据包直接路由到主机的第3层地址。在这种情况下,“非对称”是指这样一个事实,即这会导致子网间流量在入口IRB网关上“路由和桥接”,在出口IRB上“桥接”

控制平面可扩展性——受限于“所有子网”
控制平面的可扩展性受每个IRB叶节点需要编程的限制:
IP VRF中所有Overlay子网的第3层IRB接口,即使该子网中没有本地连接的主机。
这些子网中所有Overlay端点的第3层邻接,即使它在该子网中没有本地连接的主机。
IP VRF中所有Overlay子网的MAC VRF,即使该子网中没有本地连接的主机。
这些子网中所有Overlay端点的MAC路由,即使该子网中没有本地连接的主机。
IP VRF中所有Overlay端点的IP主机路由。
因此,Fabric范围的Overlay子网和端点规模受到每个叶设备的第3层接口、第3层邻接规模和MAC路由规模的限制。将更多网关设备添加到任播网关集群并不能缓解此限制,因为所有叶节点都托管路由接口、第3层邻接以及跨IP VRF的所有子网和端点的MAC路由。
最优数据路径 - 本地路由
与集中式IRB相比,本地子网间流量总是在入口网关上本地路由,而跨Fabric的子网间流量总是直接路由到远程主机。

操作简单——传统的IRB转发
与集中式IRB方法非常相似,这种方法也使用EVPN Overlay作为第2层Overlay。它将远程IP端点视为直接连接的第3层邻接。转发与传统的IRB类似,仍然易于理解、部署和操作。 将第一跳路由功能推送到EVPN Leaf网关是对传统集中式路由设计的一种转变。迁移传统交换设计时,网络设计人员必须查看网络设备的EVPN Fabric角色,独立于传统的access/distribution交换角色。
3、分布式对称路由
与分布式非对称路由架构非常相似,分布式对称为跨所有作为IRB网关运行的叶节点的Overlay子网部署了第一跳任播网关功能。然而,为了更好的可扩展性,对称IRB转发和控制平面操作与使用EVPN构建第2层VPN Overlay的非对称或集中式IRB有很大不同。对称IRB不是通过第2层Overlay上的传统IRB实现路由功能,而是使用EVPN作为单个控制平面来构建:
用于启用子网内桥接的第2层VPN Overlay
用于启用子网间路由的第3层VPN Overlay。
这种额外的第3层VPN Overlay是对称IRB架构的关键区别属性。它允许将边缘设备上的子网限制为本地连接的子网。这导致更好的缩放属性。

控制平面操作
要为子网间路由构建额外的第3层VPN,EVPN MAC+IP主机路由会通过额外的第3层VPN属性进行通告,以启用:
第3层VPN导入控制平面中的IP VRF。
数据平面中的第3层VPN封装。
综上所述,控制平面中的单个主机路由用于发信号通知要安装在IP VRF中的第3层VPN主机路由和要安装在MAC VRF中的第2层VPN MAC路由,对应的L3VPN和L2VPN封装。
数据平面操作
子网内桥接——与非对称和集中式方法相似,跨第2层VPN的桥接是通过映射到本地MAC VRF的第2层VPN封装(L2 MPLS标签或L2 VNI)完成的。桥接转发平面在所有三种路由架构中都是相同的。
子网间路由 – 子网间流量在入口网关上通过隧道路由到出口网关下一跳,到带有L3VPN封装的出口网关。此L3VPN封装在出口网关处终止并识别IP VRF,其中数据包再次在IP VRF中路由到本地连接的端点。该路由数据路径类似于传统的L3VPN,EVPN网关充当L3VPN PE设备。

控制平面可扩展性——不再“所有子网无处不在”
单独的第3层VPN Overlay允许入口网关上的子网间主机可达性通过L3VPN隧道递归解析到出口网关下一跳。这与非对称和集中式方法不同,在非对称和集中式方法,依赖于所有远程主机的第3层邻接以及它们通过第2层VPN隧道的主机MAC可达性来实现子网间路由。因此:
入口不再需要为IP VRF中的所有子网提供路由接口。它只需要为本地连接的子网配置IRB接口。
入口不再与IP VRF中的所有Overlay端点具有第3层邻接关系。它只有通过隧道到达出口下一跳的所有端点的主机路由。
入口不再具有IP VRF中所有子网的MAC-VRF。它仅具有本地连接子网的MAC-VRF。
入口不再具有到IP VRF中所有端点的MAC路由。它只有本地连接子网的MAC路由。
入口仍然具有到IP VRF中所有端点的主机路由,除非子网严格限制为一个网关(或多宿主网关)。在这种情况下,路由可以仅基于子网路由。
最优数据路径
与非对称IRB一样,本地子网间流量总是在入口上本地路由,而跨子网间总是直接路由到出口。
TTL递减
注意,使用这种方法,两个端点之间的子网间流量通过两跳,而不是通常的一跳,如通过路由器连接的传统LAN或集中式和非对称IRB。但并非数据路径是次优的,这只是数据包的操作不同。
运维开销 – 独立的L2VPN和L3VPN
与集中式和非对称IRB架构相反,对称方法确实会导致单独的第2层VPN和第3层VPN操作和管理。连同从传统的集中式路由到跨Fabric边缘的分布式路由的转变,这导致更高的学习成本。
总结
EVPN厂商的实现对一种或多种路由架构具有不同支持。关于路由的网络设计选择可能受到多种因素的影响。通过对每种方案的关键特性的理解,可以评估权衡,采用最适合的选项。
对称IRB使Fabric能够根据需要横向扩展,以适应不断增长的租户子网和端点规模。这使得它在多租户、分段和端点规模很重要的情况下获得了良好的投资回报。集中式IRB适用于优先考虑集中式路由控制的操作简化的某些用例。对于具有低租户和端点规模的部署,非对称IRB也是一种可行的方法,其中EVPN叶节点上的最佳路由优于集中路由的操作简化。
使用这些架构的部署也不一定被锁定在单个Overlay路由架构中以供将来部署,因为存在跨它们互通的选项。后续有时间会重点关注跨架构的互通和扩展VPN Overlay。
技术交流群(仅限行业和技术交流,严禁广告,非诚勿扰):






