暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

新基建 | RoCE,信创存储的新网红

落风潭 2023-12-18
130

文章起因于H3C的一次技术交流。

潭主对新事物一向感兴趣,那天H3C讲了一个新名词“无损网络”,让潭主很上头。

很久没跟设备厂商沟通了,感觉跟时代有点脱钩。

PPT的Speaker是潭主认识多年的某大师,一个在国产存储圈造诣颇深的行家。

大师当天的演讲很到位,一改往日忽悠的做派。

潭主一向要求较高,能表扬说明是真好。

大师分享了一些有关RoCE的新动向,帮潭主做了认知更新。

今天潭主以基于无损网络的存储为题跟大家分享InfiniBandRoCESDS在信创背景下的技术实践。

什么是无损网络

在潭主看来数据中心有三种网络,EthernetFCInfiniBand

其中Ethernet是传统以太网,属于网管的界面。

后两者则属于异构网络,从潭主的工作经历看属于系统管理范畴。

虽然传统以太网TCP/IP协议有三次握手的通信机制,但TCP网络会拥塞丢包,本质上属于有损网络。

而丢包和时延对于存储系统来说是致命的,对影响性能大。

所以在存储性能要求高的场景中,无损才是刚需,这也是为什么FC能够一直占据企业数据中心的原因。

不过在Mellanox的RDMA推动下,数据中心先后迎来了InfiniBandRoCE

什么是RoCE?

RoCERDMA over Converged Ethernet是一种高性能网络技术,通过以太网使用RDMA(Remote Direct Memory Access网络协议。

目前最新的技术是2014年推出的RoCE v2

RoCE主要应用于超融合数据中心、云、存储和虚拟化环境等场景。

潭主第一次听到RoCE这个词是多年前在民生银行的一次关于DB2双活的技术交流会上。

InfiniBand在前,RoCE在后

InfiniBand,一种用于HPC的网络通信标准,关键词是“高带宽、低延时”。

提起InfiniBand,就不得不提Mellanox公司。

一家全球领先的端到端InfiniBand和智能以太网互连解决方案提供商,成立于1999年,总部位于美国和以色列,其在2019年被NVIDIA收购。

Mellanox牛X之处在于其端到端的实现了RDMA。

RDMA的技术优势就是Bypass主机内核,通过RDMA实现服务器间的高速数据互访,减少CPU资源消耗。

RocE和InfiniBand的差异

虽然二者都支持RDMA协议,前者是基于无损以太网,而后者基于IB网络。

在纯IB网络上,主机端需要HCA卡,交换机需要支持IB链路层能力才能实现端到端的RDMA,也就是从网卡、交换机、线缆、光模块、软件和芯片上全栈Mellanox

InfiniBand虽好,但贵!

好在Mellanox想要进入以太网市场,从而有了RoCE。

用无损以太网部署RoCE,只需通过修改普通交换机的软件配置,就能适配RoCE。如此这般,既不需要改造现有网络,也可以实现利旧,只需更换支持RoCE的专用网卡。

总之,RoCE相比InfiniBand具有较高的性价比。

更关键是,在国产信创上,H3C和华为在以太网与较强的技术积累,只要突破网卡就能实现自主可控。

毕竟,FC和InfiniBand都归属美帝,而我们只能在以太网上突破。

因此,基于RoCE的解决方案成为信创主流,这才是我们的未来。

潭主的InfiniBand初体验

当年除了IBM大机,只有Oracle RAC可以做到系统双活,这也是Oracle牛X的原因之一。

反观DB2,臣妾做不到呀!

直到2012年DB2才发布了其pureScale双活架构,对标Oracle RAC。

而且pureScale有两个强技术依赖,一个是InfiniBand集群,另一个是GPFS并行文件系统,最初还只支持POWER小型机。

为提升系统高可用性,潭主在DB2 pureScale上做了一些探索和实践。

印象最深的是,当时因为Mellanox太小众,很多厂商压根没听说过这东西,找采购渠道成了难事。

后几经辗转从代理商处买了两台QDR,型号MIS5030Q。

双活是所有DB2用户的痛,后来听说交通银行实施了国内第一套基于InfiniBand的DB2 pure-Scale同城双活案例。

据说其用于同城InfiniBand的中继放大器还是通过“特殊”渠道才买到的,让潭主羡慕不已。

在那个时期,潭主懵懂的接触到了InfiniBand,后来Oracle的Exadata,IBM的XIV等尖端产品上都有InfiniBand的身影。

存储架构回顾

讲完了无损网络,再来回顾一下存储。

从存储类型看:分为块、文件和对象三大类,也就是潭主所说的SAN、NAS和OBJ。

从存储架构看,分集中式和分布式两类。

而从磁盘的接口协议看,又分为SATA、SAS和NVMe。

NVMe(Non-Volatile Memory Express)是一种针对固态盘的主机通道协议,在设计和优化上能够充分利用SSD的并行性和高IOPS的特性,最大限度地提高SSD的性能和可扩展性。

相比SCSI协议存在的存储队列深度低等缺陷,NVMe俨然成了SCSI的替代技术。

当年,SSD还没大规模普及时,厂商讲“全闪存数据中心”,有了NVMe后,又开始讲NVMe-oF了。

NVMe与NVMe-oF

早期,核心存储主流技术方案都是FC-SAN,潭主对IP-SAN的使用经验不多。

对金融行业来说,稳定和性能和通常比成本更重要。

再后来IBM XIV出现了,一款划时代的SDS分布式存储,潭主最爱。

块存储技术实现方案有三种:

  • FC SAN

  • IP SAN

  • 分布式SDS


不过像XIV这种一体机产品,核心是SDS,但对外暴露的还是用户熟悉的FC,其实XIV也提供iSCSI的能力。

NVMe是一种存储技术协议,主要存在于服务器和存储阵列中,而NVMe-oF(NVMe of Fabric的简称)则存在于网络上。

目前NVMe主流的三种Fabric传输方式:

  • NVMe-oF using FCP:FC-NVMe

  • NVMe-oF using RDMA:InfiniBand、RoCE/iWARP

  • NVMe-oF using TCP:TCP-NVMe


FC-NVMe和TCP-NVMe这两个好理解,就是NVMe协议跑在FCP和传统TCP上。

RoCE和InfiniBand前文有介绍,都属于无损网络。

NVMe-oF的行情如何?

目前,国外主流存储厂商对FC-NVMe支持是最好的,属于垄断者。

毕竟FC从诞生之日起即专注于存储传输技术,有20年的技术积累,以及7年多的NVMe-oF实践,所以NVMe over FC是目前的主流。

Gartner也认为全球70%的全闪存阵列将采用FC-NVMe。

目前国内正处于信创周期,所以基于RoCE的存储解决方案才是主流。

比如,最近XSKY发布了其新一代全闪产品,也是NVMe-oF。

RoCE与SDS,相辅相成

以潭主最为熟悉的SmartX产品为例,其布式块存储ZBS目前也提供2种存算分离架构下的数据接入协议,分别是 iSCSI和NVMe-oF。

综合性能和网络条件两个角度考虑,ZBS选择支持NVMe over RDMA/RoCE v2 和 NVMe over TCP,以满足用户的多种需求。

其实,无论技术怎么升级换代,用户更关心新技术应用的性价比,以及系统的可移植性。

由于NMVe主要用于后端存储协议,因此对前端应用没有影响。

在目前信创背景下,替换现有FC存储的最佳选择就是RoCE存储,而国内支持RoCE-NVMe的厂商主要是H3C、宏杉华为。

当然,还有像SmartX、XSKY这样的分布式存储厂商也有NVMe-oF端到端的解决方案。

不过,存储只是IT基础架构的一部分,从全局考量,还得看高维的超融合系统和云。

- END -

感谢阅读。如果觉得写得还不错,就请点个赞或“在看”吧。


  • 公众号所有文章仅代表个人观点,与供职单位无关。


文章转载自落风潭,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论