暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

最新动态:SSD规格尺寸

Andy730 2024-06-24
544
  • 题目:The Latest on Form Factors

  • 演讲者:Jonmichael Hands, SNIA SSD Special Interest Groupnc.

  • 会议:SNIA Compute, Memory, and Storage Summit

  • 日期:2024年5月22日

大家好!今天我来为大家带来EDSFF的最新进展。首先,为了更准确地反映其应用范围,EDSFF现已更名为“企业和数据中心标准规格尺寸”。

值得注意的是,EDSFF现在将支持更多类型的设备,这标志着其应用范围的重大扩展。首个支持的新设备类型是CXL,未来还将支持更多设备类型,例如大家可能熟悉的OCP NIC,它们都将共用同一个EDSFF连接器。因此,EDSFF标准规格尺寸将构成一个完整的规格尺寸家族,涵盖各类数据中心设备。今天,我将主要聚焦于SSD,因为我是一位SSD专家。

E1.S规格尺寸专为计算型SSD设计,这里的“计算”指的是服务器领域,意味着E1.S主要面向超大规模数据中心服务器。为了满足超大规模数据中心的苛刻需求,E1.S采用垂直放置方式安装在1U服务器中。其模块化设计提供了多种类似于M.2规格的E1.S选择方案,可以满足不同应用场景的需求。例如,如果需要一款接近M.2规格且无需额外散热器的版本,或者需要在标准背板上垂直安装以适应1U服务器空间限制,E1.S都能完美契合。此外,E1.S支持在不同散热条件下进行热插拔,并具备出色的模块化和可扩展性,与超大规模数据中心中广泛应用的M.2规格SSD一脉相承。这意味着服务器可以轻松增加驱动器数量来扩展性能、服务质量和隔离性,同时保持与M.2规格SSD相近的性能表现。值得一提的是,E1.S的功率可达25瓦,但尺寸却远小于M.2规格SSD。

E3.S是面向企业服务器的主流规格尺寸。由于服务器需要同时支持1U和2U两种形态,因此E3.S规格尺寸必须能够满足水平放置在1U服务器中或垂直放置在2U服务器中的需求。在E3.S规格尺寸的设计过程中,我们与戴尔、惠普等行业巨头以及原始规范的制定者密切合作。我们的目标是打造一个标准版本,即E3.S,其尺寸小于U.2规格,从而能够扩展前端I/O和性能。现代CPU通常配备12个PCI通道,而双路服务器则有更多PCI通道。因此,我们希望通过背板设计为前端提供更多I/O选项。E3.S的主要优势之一在于其卓越的性能扩展能力,即每台服务器可以容纳的驱动器数量。得益于更高的功率限制,E1.S的性能明显优于M.2规格SSD。然而,EDSFF的独特优势在于,通过增加每个驱动器在服务器中所占用的机架单元数,能够进一步扩展I/O性能。

EDSFF专为支持PCIe Gen 5和Gen 6而设计,同时还兼容CXL 2.0和3.0协议。今天,我们将聚焦于EDSFF CXL内存模块,首先介绍其中的明星产品:E3.S 2T。EDSFF设计以卓越的热效率和简便的散热著称,并针对不同热环境提供多种散热方案,助力降低总体拥有成本(TCO)。

接下来,我将通过一些精彩的应用案例和实证来佐证其优势。

在规格方面,EDSFF标准由SNIA SFF工作组制定,其中SNIA SFF规范定义了具体的EDSFF规格尺寸。从物理尺寸来看,目前主要有三种规格:E1.S、E1.L和E3。自2021年以来,这些规格尺寸基本没有变化。E1规格保持不变,而E3规格在最新的2.1版规范中增加了一些新特性,例如对NIC侧带和2x1C的支持。因此,如果需要一个标准的背板支持x4连接,但设备具有多个连接选项,并且需要了解一些CXL方面的细节,那么E3.S将是一个很好的选择。

EDSFF连接器是实际的高速连接器,定义了背板、主板和驱动器之间的连接。它具有接口无关性,这意味着除EDSFF之外,还有许多其他应用场景可以使用该连接器。但它主要用于EDSFF设备。

EDSFF 1.5版规范增加了一些新功能,例如对PCIe Gen 6的支持。这意味着可以使用该连接器在高速布线系统中进行应用。此外,引脚和信号规格已升级到4.0版本,正式支持PCIe Gen 6和CXL LEDs。这提供了PCIe和CXL引脚的列表和位置,方便了解它们的具体位置。在构建EDSFF SSD时,需要关注连接器上PCIe信号的布局。

接下来,SNIA SFF-TA-1034,这是一个可插拔多用途模块,它定义了一个通用的规格尺寸。最初,我们可能会看到一些已经利用SFF-TA-1002连接器的设备,例如OCP NIC。大多数OCP NIC都使用该连接器的x6变体,但它们可以被封装在一个像E3这样的可插拔规格尺寸中。

最后,SFF-TA-1023,这是一个散热规格。正如大家在许多EDSFF规格中所见,电源现在已经整合到信息规格中。这意味着在EDSFF中不再强制要求使用特定的电源。这实际上涉及到不同的热和气流要求,以满足不同类型设备上的特定功率需求。

这张幻灯片清晰地展现了优越信号完整性带来的显著优势。回顾PCIe拓扑结构,减少连接数量能够有效降低损耗。例如,PCH、CPU、Retimer以及带有三个驱动器的交换机等,构成了多种不同的PCI连接器拓扑结构。在PCIe架构中,每个通道都拥有固定的损耗预算,连接数量越多,引入的损耗也就越大。

在服务器设计中,这里采用了一种巧妙的方法:将SFF-TA-1002 1C连接器直接连接到主板,再连接到线缆上。这种方法使得整个拓扑结构的信号损耗降低了40%。这是一种在不显著增加成本的情况下显著提高信号完整性的有效方案。

我曾与多位客户进行交流,他们普遍认为采用Gen 6和其他更高速协议的主要障碍是成本。因此,关键在于能够以与上一代相同或更低的成本设计这些新接口和速度。而EDSFF则提供了更多实现这一目标的工具。

与背板相比,背板上的额外跳线和连接器会引入更高的插入损耗,而EDSFF驱动器则不存在这个问题。因此,总体而言,EDSFF设计的信号完整性更佳。在系统层面,这不仅能够降低系统成本,还能显著提高空气流动性。因为无需担心大型背板阻挡空气流动,空气能够在驱动器之间自由流通。

接下来,我们将简要探讨E1.S的趋势。正如我们在之前的一些CMSI EDSFF网络研讨会中展示的,上次我们参观了OCP全球峰会,并拍摄了这些服务器的视频。显然,Meta和Microsoft是E1.S的坚定支持者,并已在其整个OCP服务器群中部署了E1.S。可以访问Open Compute网站查看所有不同的服务器设计,如Grand Canyon。即使是硬盘服务器也采用了E1.S作为缓存驱动器。E1.S在超大规模环境中非常普遍,大家可以看到其他平台正在企业中引入它,即使可能不是OCP类型的设计,但将这些标准的E1.S引入1U服务器中。E1.S专为1U服务器设计,其存储密度远非U.2可比。这显然是1U服务器的最佳规格尺寸。

近年来,随着AI成为数据中心的重中之重,除了英特尔和AMD之外,Nvidia也逐渐崛起为主要平台供应商。他们已经在其高速训练服务器中采用了E1.S规格尺寸。在这个设计中,四个E1.S驱动器被用于实现GPU本地化,许多AI公司正在利用EDSFF进行训练和推理。在训练阶段,这些驱动器被用于存储检查点,因此需要高性能的E1.S驱动器,同时还要兼顾空间利用率。E1.S规格尺寸完美地满足了这些需求。我很高兴看到EDSFF的应用不仅扩展到传统CPU平台,还正在向GPU和AI平台领域拓展。

这张图片是戴尔服务器。在一个标准的服务器机箱中,工程师们巧妙地在1U高度的空间内集成了8个驱动器,而不会占用整个背板,这样就为另一侧预留了充足的散热空间。针对E3平台,戴尔提供了多种选择,使其能够满足各式应用需求。图中展示了1U和2U两种形态的服务器,其中2U服务器只在存储舱的正面安装了一部分驱动器。这充分体现了E3平台的设计理念,即为主流企业服务器提供卓越的性能和灵活的扩展性。

当今的标准服务器可能只配备CPU、内存和固态硬盘等基础部件。然而,随着GPU、网卡、加速器和DPU等组件的加入,服务器内部的部件数量正在迅速增加。因此,采用E3平台的2U服务器能够有效节省空间和资源,带来巨大的优势。此外,基于E3平台的高密度存储服务器也应运而生。

现在,让我们以一个例子来展示E1.S在不同热环境下的灵活性。E1.S规范允许15毫米和25毫米规格的驱动器最高达到25瓦的功率。对于追求极致性能且服务器拥有多个驱动器的用户来说,25瓦驱动器无疑是最佳选择。同样,如果需要使用PCI Gen 6,那么高功率驱动器也是必不可少的。然而,对于以TCO为中心的存储服务器而言,情况则有所不同。例如,Supermicro服务器支持24个E1.S 15毫米驱动器,我们可以通过调整驱动器功率来实现灵活的功耗管理。大型服务器厂商通常会将驱动器的运行温度提高到接近操作温度上限,以降低风扇转速。

假设驱动器以25瓦运行(如左侧情景所示),将功率降至16瓦后,每个驱动器的功耗将显著降低。对于24个驱动器而言,这将带来巨大的节能效果。此外,将风扇转速从100%降低到30%也能大幅减少风扇功耗。仅通过降低SSD功耗,我们便能在一个存储服务器上节省26%的功耗,而无需进行其他更改。

1U服务器通常配备强劲的高性能40毫米风扇,功耗可达30瓦。在这台特定的服务器中,共有8个这样的风扇,分布在风扇1到风扇8以及24个SSD之间。这种设计不仅在热量管理方面具有显著优势,而且还能有效降低噪音。

我们将这一案例代入SNIA TCO模型中,设计了一个示例机架,配备了两个运行28伏特的PDU。该机架的标准PDU功率限制为15千瓦。在这个机架中,可以放置一台服务器或多达16台服务器。如果受到功率限制,可以通过将每个驱动器的功耗从25瓦限制到16瓦,在每个机架中额外增加45%的服务器数量。这将带来TCO的显著降低。在SNIA TCO模型中,TCO降低了29%。对于存储服务器来说,运行更高容量的驱动器至关重要。右侧图表显示,通过将驱动器功耗从25瓦降低到16瓦,可以节省15.36%的成本。这个例子充分表明,即使是微小的SSD功耗降低也会对机架级别的TCO产生显著影响。

今年,我参加了CXL开发者大会和MemCon,并有幸目睹了众多令人振奋的全新CXL设备。三星展示了一款引人注目的CXL混合内存模块,该模块集成了SLC闪存、DRAM和超级电容器,有望成为CXL技术的全新应用,将NAND技术与CXL优势相结合。此外,三星还展示了带有DRAM的CXL内存模块,SK Hynix和Micron也在各自的展位上展出了类似产品。这些CXL内存模块的出现无疑令人印象深刻。

在CXL开发者大会上,与会者们热烈探讨了CXL技术在提升内存带宽和内存容量方面的应用场景。除了内存池和其他扩展应用之外,CXL 2.0的主要应用在于扩展每个系统的内存容量,满足那些对内存需求更高的工作负载。这不仅涉及内存容量本身,也包括内存带宽,因为CXL能够有效扩展内存带宽。因此,将这种规格尺寸优化应用于EDSFF E3.S2T标准中也具有广阔的潜力。基于以上理由,我们可以期待...

还有一个名为JESD317A的最新JEDEC标准,可在JEDEC网站上免费下载。该标准定义了用于CXL内存模块的EDSFF规格尺寸。需要注意的是,E1.S标准支持x8连接器,而x4连接器则适用于SSD。E3.S2T标准则采用x8连接器和2C连接器,以满足更高的内存带宽和PCI带宽需求。由于PCIe与CXL共享相同的电子设备,因此x8连接器能够提供更大的PCIe Gen5带宽。此外,JESD317A还定义了带有x4连接的E3.S标准,该标准与SSD兼容,支持向后兼容的CXL内存模块设计。

这充分展现了CXL与SSD以及不同规格尺寸灵活混合搭配的优势。正如服务器上的插槽设计,EDSFF规范的一大亮点便是其兼容性,这在设计之初可能被很多人忽视。可以选择两个E3.S插槽,或一个E3.S 2T插槽,均可与背板兼容。相比之下,U.2的15毫米和7毫米规格则互不兼容,无法将15毫米驱动器插入7毫米插槽中,且占用另一个插槽。而EDSFF的设计则充分考虑了向后兼容性,这一点在服务器正面尤为明显。可以支持4个CXL内存模块和8个SSD,这种1U配置实现了设备的灵活混合搭配,极具优势。

令我困惑的是,工作站和高端台式机对EDSFF的采用仍然十分有限。我们亟需解决这个问题。试想一下,谁会愿意花费15000美元购买配备M.2或硬盘驱动器的工作站?坦白说,M.2虽然适合启动盘,但并不适用于高端工作站的工作负载。而如今,EDSFF驱动器,尤其是超大规模用户所使用的低容量(一到两TB)驱动器,非常适合用作启动盘,并且适用于任何类型的工作站工作负载。事实上,功率并非问题。考虑到这些系统通常配备双4090显卡(每个功耗450瓦)或350瓦TDP的CPU,与M.2的8瓦相比,E1.S的16瓦功耗差异在这些系统中根本微不足道。

并非针对戴尔,事实上我自己就有早期版本的Threadripper工作站,型号为7865。我对这款工作站的主要不满是,其内部安装NVMe驱动器非常困难,尤其是无法安装企业级NVMe驱动器。厂商完全可以移除现有的硬盘托架或带有M.2插槽的灵活托架,直接安装EDSFF驱动器。这将是E1.S规格尺寸的完美应用场景,可以在高端工作站前面安装4个或6个EDSFF驱动器,充分利用工作站提供的丰富PCIe通道。因此,我强烈建议工作站制造商们考虑采用EDSFF标准,因为它对于工作站而言可谓是理想的规格尺寸。

在这页图中,左边使用百分比单位,右边使用百分比PB单位。同时查看这两个指标非常有帮助,因为有时候按PB计算更直观地反映采用情况,例如容量更大的E1.L驱动器。

从图中可以看出,按单位计算,到2024年-2025年,EDSFF驱动器的采用率将接近15%。而按PB规格尺寸计算,2024年E1.S驱动器的采用率就已经非常高,预计到2028年将超过50%的总容量。紫色和粉色分别代表E1.S和E1.L驱动器。

坦白说,这让我感到十分失望。我曾是EDSFF规格尺寸设计团队的一员,并参与设计了于2017年发布的首款EDSFF规格尺寸E1.S。自2018年E1.S投产以来,至今已过去六年。在超大规模领域,技术更迭的速度非常快,从M.2到E1.S的转变尤为明显,因为超大规模厂商已将E1.S设计到了所有平台中。

最初,我们认为U.2可能无法升级到Gen 5,因为插入损耗和电气成本会使U.2在Gen5时的系统成本变得不切实际。我个人认为,U.2在Gen 5时代已不再具有意义,因为E3规格尺寸提供了更好的性能。遗憾的是,由于许多插槽都支持U.2,SSD供应商必须使新驱动器兼容U.2,并会为了满足规范升级要求而制造Gen 5驱动器,然后再降级到Gen 4。这从平台角度来看一直令人沮丧。

但从系统角度来看,目前已有来自所有企业OEM和超大规模系统的E1.S支持的系统,因此我认为未来不会出现问题。在Gen 6时代,由于U.2将停止发展,因此Gen 6平台和CXL 3.0平台的转变将真正推动EDSFF的进一步采用,这将是一个更艰难的挑战。

我其实是希望EDSFF的采用速度能够更快一些。我并不希望看到Gen 5 U.2被部署在任何企业OEM或服务器上,因为这只会阻碍整个行业的发展。很多SSD供应商都已经推出了U.2驱动器,因此对于平台供应商来说,如果不支持所有已投产的驱动器,也就无法设计出完整的系统。规格尺寸的转变总是伴随着挑战,但最终都会实现。我们已经看到EDSFF的销量在稳步增长,未来它必定会成为主流规格尺寸。因此,我对EDSFF的发展前景要比Forward Insights提供的还要乐观。

可插拔多功能模块(Pluggable Multi-Purpose Module,PMM)是一种专为EDSFF新规格尺寸设计的模块,可用于各种通用设备。它位于设备前端(内部),并采用了名为MiniLink x4的新型高速线缆模块连接系统,该系统对SFP+和QSFP连接器进行了更新,并通过Shield连接器进行连接。MiniLink x4和Shield连接器均为新规格,此外还有一些规格进行了修订。


--【本文完】---

近期受欢迎的文章:

  1. Databricks Data+AI峰会主题发言(Day1 全文)

  2. 内存技术引领计算架构重大变革

  3. IEEE发布:存储介质技术路线图

  4. AI存储需求(SNIA CMSS峰会)

  5. 增加并行文件系统功能是怎么实现的?(2篇)



更多交流,可添加本人微信

(请附姓名/单位/关注领域)

文章转载自Andy730,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论