
文章起因于H3C的一次技术交流。
潭主对新事物一向感兴趣,那天H3C讲了一个新名词“无损网络”,让潭主很上头。
很久没跟设备厂商沟通了,感觉跟时代有点脱钩。
PPT的Speaker是潭主认识多年的某大师,一个在国产存储圈造诣颇深的行家。
大师当天的演讲很到位,一改往日忽悠的做派。
潭主一向要求较高,能表扬说明是真好。
大师分享了一些有关RoCE的新动向,帮潭主做了认知更新。
今天潭主以基于无损网络的存储为题,跟大家分享InfiniBand、RoCE和SDS在信创背景下的技术实践。
什么是无损网络
在潭主看来数据中心有三种网络,Ethernet、FC和InfiniBand。
其中Ethernet是传统以太网,属于网管的界面。
后两者则属于异构网络,从潭主的工作经历看属于系统管理范畴。
虽然传统以太网TCP/IP协议有三次握手的通信机制,但TCP网络会拥塞丢包,本质上属于有损网络。
而丢包和时延对于存储系统来说是致命的,对影响性能大。
所以在存储性能要求高的场景中,无损才是刚需,这也是为什么FC能够一直占据企业数据中心的原因。
不过在Mellanox的RDMA推动下,数据中心先后迎来了InfiniBand和RoCE。
什么是RoCE?
RoCE(RDMA over Converged Ethernet)是一种高性能网络技术,通过以太网使用RDMA(Remote Direct Memory Access)网络协议。
目前最新的技术是2014年推出的RoCE v2。
RoCE主要应用于超融合数据中心、云、存储和虚拟化环境等场景。
潭主第一次听到RoCE这个词是多年前在民生银行的一次关于DB2双活的技术交流会上。
InfiniBand在前,RoCE在后
InfiniBand,一种用于HPC的网络通信标准,关键词是“高带宽、低延时”。
提起InfiniBand,就不得不提Mellanox公司。
一家全球领先的端到端InfiniBand和智能以太网互连解决方案提供商,成立于1999年,总部位于美国和以色列,其在2019年被NVIDIA收购。
Mellanox牛X之处在于其端到端的实现了RDMA。
RDMA的技术优势就是Bypass主机内核,通过RDMA实现服务器间的高速数据互访,减少CPU资源消耗。
RocE和InfiniBand的差异
虽然二者都支持RDMA协议,前者是基于无损以太网,而后者基于IB网络。
在纯IB网络上,主机端需要HCA卡,交换机需要支持IB链路层能力才能实现端到端的RDMA,也就是从网卡、交换机、线缆、光模块、软件和芯片上全栈Mellanox。
InfiniBand虽好,但贵!
好在Mellanox想要进入以太网市场,从而有了RoCE。
用无损以太网部署RoCE,只需通过修改普通交换机的软件配置,就能适配RoCE。如此这般,既不需要改造现有网络,也可以实现利旧,只需更换支持RoCE的专用网卡。
总之,RoCE相比InfiniBand具有较高的性价比。
更关键是,在国产信创上,H3C和华为在以太网与较强的技术积累,只要突破网卡就能实现自主可控。
毕竟,FC和InfiniBand都归属美帝,而我们只能在以太网上突破。
因此,基于RoCE的解决方案成为信创主流,这才是我们的未来。
潭主的InfiniBand初体验
当年除了IBM大机,只有Oracle RAC可以做到系统双活,这也是Oracle牛X的原因之一。
反观DB2,臣妾做不到呀!
直到2012年DB2才发布了其pureScale双活架构,对标Oracle RAC。
而且pureScale有两个强技术依赖,一个是InfiniBand集群,另一个是GPFS并行文件系统,最初还只支持POWER小型机。
为提升系统高可用性,潭主在DB2 pureScale上做了一些探索和实践。
印象最深的是,当时因为Mellanox太小众,很多厂商压根没听说过这东西,找采购渠道成了难事。
后几经辗转从代理商处买了两台QDR,型号MIS5030Q。
双活是所有DB2用户的痛,后来听说交通银行实施了国内第一套基于InfiniBand的DB2 pure-Scale同城双活案例。
据说其用于同城InfiniBand的中继放大器还是通过“特殊”渠道才买到的,让潭主羡慕不已。
在那个时期,潭主懵懂的接触到了InfiniBand,后来Oracle的Exadata,IBM的XIV等尖端产品上都有InfiniBand的身影。
存储架构回顾
讲完了无损网络,再来回顾一下存储。
从存储类型看:分为块、文件和对象三大类,也就是潭主所说的SAN、NAS和OBJ。
从存储架构看,分集中式和分布式两类。
而从磁盘的接口协议看,又分为SATA、SAS和NVMe。
NVMe(Non-Volatile Memory Express)是一种针对固态盘的主机通道协议,在设计和优化上能够充分利用SSD的并行性和高IOPS的特性,最大限度地提高SSD的性能和可扩展性。
相比SCSI协议存在的存储队列深度低等缺陷,NVMe俨然成了SCSI的替代技术。
当年,SSD还没大规模普及时,厂商讲“全闪存数据中心”,有了NVMe后,又开始讲NVMe-oF了。
NVMe与NVMe-oF
早期,核心存储主流技术方案都是FC-SAN,潭主对IP-SAN的使用经验不多。
对金融行业来说,稳定和性能和通常比成本更重要。
再后来IBM XIV出现了,一款划时代的SDS分布式存储,潭主最爱。
块存储技术实现方案有三种:
FC SAN
IP SAN
分布式SDS
不过像XIV这种一体机产品,核心是SDS,但对外暴露的还是用户熟悉的FC,其实XIV也提供iSCSI的能力。
NVMe是一种存储技术协议,主要存在于服务器和存储阵列中,而NVMe-oF(NVMe of Fabric的简称)则存在于网络上。
目前NVMe主流的三种Fabric传输方式:
NVMe-oF using FCP:FC-NVMe
NVMe-oF using RDMA:InfiniBand、RoCE/iWARP
NVMe-oF using TCP:TCP-NVMe
FC-NVMe和TCP-NVMe这两个好理解,就是NVMe协议跑在FCP和传统TCP上。
RoCE和InfiniBand前文有介绍,都属于无损网络。
NVMe-oF的行情如何?
目前,国外主流存储厂商对FC-NVMe支持是最好的,属于垄断者。
毕竟FC从诞生之日起即专注于存储传输技术,有20年的技术积累,以及7年多的NVMe-oF实践,所以NVMe over FC是目前的主流。
Gartner也认为全球70%的全闪存阵列将采用FC-NVMe。
目前国内正处于信创周期,所以基于RoCE的存储解决方案才是主流。
比如,最近XSKY发布了其新一代全闪产品,也是NVMe-oF。
RoCE与SDS,相辅相成
以潭主最为熟悉的SmartX产品为例,其分布式块存储ZBS目前也提供2种存算分离架构下的数据接入协议,分别是 iSCSI和NVMe-oF。
综合性能和网络条件两个角度考虑,ZBS选择支持NVMe over RDMA/RoCE v2 和 NVMe over TCP,以满足用户的多种需求。
其实,无论技术怎么升级换代,用户更关心新技术应用的性价比,以及系统的可移植性。
由于NMVe主要用于后端存储协议,因此对前端应用没有影响。
在目前信创背景下,替换现有FC存储的最佳选择就是RoCE存储,而国内支持RoCE-NVMe的厂商主要是H3C、宏杉和华为。
当然,还有像SmartX、XSKY这样的分布式存储厂商也有NVMe-oF端到端的解决方案。
不过,存储只是IT基础架构的一部分,从全局考量,还得看高维的超融合系统和云。
- END -
感谢阅读。如果觉得写得还不错,就请点个赞或“在看”吧。
公众号所有文章仅代表个人观点,与供职单位无关。





