核心内容
Oren Benisty(UniFabriX)
- 新型内存架构:内存池结合交换网络管理,将支持多主机间的内存共享,实现更高效的资源利用和更灵活的内存分配,为计算架构带来革命性变化。
- Astera Labs开发了COSMOS平台解决方案堆栈,提供全面的API和软件集成支持。CXL解决方案组合包括多种内存扩展与连接技术,为未来数据中心架构提供了更多可能性。
-----
Oren Benisty(UniFabriX) Ahmed Medhioub(Astera Labs) Matthew Burns(Samtec)
-----
Oren Benisty (UnifabriX)
在讨论内存池之前,我们先来了解一下内存墙的概念。

什么是内存墙?让我们回顾一下几年前(约2021年)IBM在OCP峰会上的演示。幻灯片中,橙色条形图展示了内存通道带宽,尤其是每个核心的内存通道带宽。绿色条形图则显示了核心数量的增长趋势。这一趋势从2012年的大约两个核心开始,逐步增加到四个核心,而现在正朝着64到128核心的方向发展。
值得注意的是,随着核心数量的增加,内存通道数量却没有相应增长。最初是两个核心配两个通道,后来变成四个核心仍然只有两个通道,这意味着每个核心的带宽实际上减少了一半。随着核心数量进一步增加,而内存通道数量保持不变,橙色条形图清楚地显示每个核心的带宽持续下降。
2. 容量受限:每个通道的内存容量有限。
为了解决这些问题,我们要么需要增加通道数量,要么寻求外部解决方案。内存池就是这样一种外部解决方案,它为系统提供了更多的带宽和容量。

去年Meta在MeCon上展示了AI实施面临的挑战。右上角的红色区域突出显示了内存带宽对大型语言模型推断的限制。绿色条形图则展示了内存容量对推荐引擎推断的限制。整体来看,左侧显示模型大小从几GB增长到TB级别。这些挑战都可以通过内存池来解决。
内存池是一种强大的工具,能够提供不依赖于CPU内存通道的额外内存。对于不断增大的AI模型来说,这一点尤为重要。例如,GPT-4需要1TB的内存,而并非所有系统都具备这样的容量。使用内存池,我们可以为每个主机提供更多的内存资源。

内存池的市场或用例:
云计算:目前,私有云和公有云都提供了将特定内存附加到每个核心的实例。未来,有了内存池,我们将能够提供"内存即服务"。这意味着随着核心数量的增加,我们也可以灵活地增加每个核心的内存量。这将是一种全新的内存使用模式。 生成式AI(GenAI):大型语言模型通常需要TB级的内存。内存池可以满足这一需求,使单个实例能够支持大型语言模型,并为每个用例提供定制化实现。 高性能计算(HPC):例如数值计算,这类应用需要每个计算节点拥有大量内存。 视频处理:如动画工作室需要渲染8K等高分辨率视频,这需要将大量数据存储在内存中以进行完整渲染。 医疗药物发现:也是内存池的重要应用场景。以DNA测序为例,一份DNA数据通常约为1TB。要比对这些序列并建立匹配不同个体DNA的完整能力,需要大量内存。DNA测序本质上是一种内存密集型应用。 高频交易:高频交易中的数据分析也面临类似挑战,需要比对来自不同数据库的海量数据,这往往导致CPU出现内存瓶颈。
这些应用都给CPU(以及GPU)造成了巨大的内存压力,而基于CXL的内存池正是解决这些问题的关键。

让我们看看CXL如何实现连接性。CXL是连接内存池与不同主机的"魔法"。这些主机运行标准的Linux操作系统和驱动程序,无需特殊配置。CXL为内存池(如Max Memory产品)与各种主机之间提供了连接,这些主机可以运行标准的Intel或AMD处理器,无论是否配备GPU。CXL的独特之处在于它在内存池和主机之间创建了一致性,使每个主机都能将这些内存视为自身系统的一部分。
目前的连接基于CXL 1.1标准,明年将升级到CXL 2.0。它支持CPU和GPU。当GPU支持CXL时,这将成为一种标准的2U解决方案,类似于机架顶部交换机。机架顶部可以安装内存池,提供4到32TB的内存。这32TB可以在多个节点之间共享,根据架构不同可以是2、4、8或16个节点。现有架构仅限于单个系统,但未来我们将支持基于交换网络的多箱体CXL 3.1,这将使我们能够连接多个节点,将系统扩展到多个机架上的256TB。内存带宽可以扩展到每秒512GB,使系统能够以极高的带宽提供32TB(在多机架环境中为256TB)的内存。内存池和自适应共享技术使得从单个内存池向单个或多个主机同时提供内存成为可能,从而大大提高了系统效率。
一个值得关注特点是我们可以在系统中使用各种介质。我们可以使用DDR4、DDR5,在Astera的下一次演示中,您还会看到他们展示基于CXL的EDSFF内存。我们还能够提供NVMe,即存储级内存,类似于Intel的Optane内存。这使我们能够提供容量更大、持久性更强的内存。通过将NVMe作为内存使用,我们还能实现数据备份,因为NVMe是持久性存储。
目前,系统已经开始部署,一些客户正在购买和试验,以实现性能、容量和带宽的提升。当前的连接方式基于光纤和铜线。在下一次演示中,Samtec将展示内存池与不同主机之间的光纤连接技术。

展望未来,正如我们所说,Max Memory是一个单一的箱体连接到不同的主机。在多机架环境中,我们将能够连接多个Max系统到数百个节点,将CPU连接到GPU,并从Max Memory向多个主机提供内存。这种架构对于生成式AI和HPC特别具有吸引力,因为它允许数百个节点连接到多个Max Memory系统,在它们之间共享内存。这将由一个交换网络管理,该网络可以监控所有主机和所有Max Memory系统,实现所有节点间的内存共享。

关于性能,我们进行了五项不同的基准测试。在生成式AI推断中,我们观察到指令每秒增加了150%。在HPC领域,运行HPCG测试时,每秒浮点运算增加了131%。这些基准测试涵盖了HPC、AI、数据分析和数值计算,结果表明通过增加内存容量,我们可以提高几乎所有系统中每个工作负载的性能。
回顾第一张幻灯片,我们看到核心数量在增加,但内存增长速度不一致。通过使用内存池,我们能够提供更多的内存,使每个核心拥有更充足的内存资源,从而显著提升系统性能。
总之,内存池技术已经问世,它将为每个系统提供更多内存,有望彻底改变计算架构的未来发展方向。
Ahmed Medhioub (Astera Labs)


首先,让我们回顾一下CXL技术。CXL是一种高速、大容量的互连技术,用于CPU与设备或内存之间的连接。它基于PCI物理电气接口,包含基于PCI的块输入/输出协议CXL.io(主要用于发现、配置和中断),同时引入了两种新的缓存一致性协议:CXL.cache(用于访问系统内存)和CXL.mem(用于访问设备内存)。
CXL协议定义了三种类型的设备,它们支持CXL.io、CXL.mem和CXL.cache协议的不同组合。特别值得注意的是Type 3设备,它支持CXL.io和CXL.mem协议。这类设备通常作为内存扩展设备,允许主机处理器通过CXL.mem事务一致性地访问CXL设备内存,适用于内存扩展、池化和共享等场景。

3. 内存共享:两个主机通过各自的by8链路连接到CXL模块,使它们能够一致地访问和利用控制器后面的共享内存。

那么,这在服务器基础设施中是如何体现的呢?对于内存敏感型应用,传统架构通常采用四路系统,配备64个DIMM。这种配置的挑战在于,往往需要购买或过度配置超出实际应用所需的硬件,如额外的CPU、背板、驱动器和电源等。
相比之下,采用CXL技术的新配置可以是一个双路CXL箱,配备8个by16内存扩展卡。例如,在每通道2 DIMM的配置中,这种方式同样可以提供64个DIMM。这种配置的优势在于,能够在不增加CPU数量的情况下添加更多DIMM,从而优化CPU核心的全面利用,同时降低资本支出(CapEx)和运营支出(OpEx)。

Astera Labs的Leo CXL智能内存控制器是一种Type 3 CXL 1.1和2.0内存控制器,适用于内存扩展(E系列)以及内存池化和共享(P系列)。它提供高速内存访问,并通过与Intel、AMD和Arm等领先CPU厂商的合作而开发。该控制器经过与不同主机的多次互操作性测试,支持来自主要内存供应商(Micron、Hynix、三星和SK Hynix)的多种型号DDR5 DIMM。
Aurora A1000附加卡为评估和部署CXL内存扩展和池化提供了无缝途径。它经过了CXL生态系统中不同供应商的广泛CPU和内存互操作性及性能测试,有助于提升资源利用率、可扩展性,并降低总体拥有成本。
Leo CXL智能内存控制器为数据中心提供了面向未来的解决方案,为下一代内存密集型应用做好准备,包括AI、内存数据库、电信等。

需要优化以利用CXL附加内存的应用程序和工作负载。 CXL附加的DIMM现在成为内存子系统的一部分,因此可靠性、可访问性和可维护性至关重要。 保密计算成为一个强有力的安全驱动因素。 CPU和DIMM的互操作性对于实现无缝集成和操作至关重要。
为了支持这些要求,Astera Labs开发了一个全面的平台解决方案堆栈,包括COSMOS(我们的连接和系统管理优化软件),涵盖了所有平台API、模块和运行在我们芯片上的嵌入式软件。这个堆栈可以与终端应用程序、常见的设备驱动程序以及来自不同供应商的操作系统内核和BMCs无缝集成,并与芯片自身的软件定义架构相结合,从而实现一个强大且高效的CXL生态系统。

CPU直接附加的CXL内存扩展,通常通过CAM或EDSFF使用。 短距离CXL附加内存解决方案,通常与MX等线缆解决方案一起使用,适用于扩展模块相对于主板的不同位置。 新推出的Leo智能线缆模块,支持高达7米的主动铜PCIe和CXL连接,以及高达50米的光模块。
Matthew Burns (Samtec)

在今天的网络研讨会中,我们将重点讨论CXL技术实际实施的物理层。鉴于市场对光学技术的浓厚兴趣,我们需要探讨一个关键问题:为什么需要基于光学技术的CXL(CXL over Optics)?虽然这主要是Samtec的观点,但它与之前网络研讨会中展示的内容有许多共通之处。

显然,人工智能的颠覆性影响已经非常显著。随着模型规模不断扩大,计算需求和内存需求也呈指数级增长。同时,我们观察到在数据中心、高性能计算(HPC)和超级计算等领域,分离计算架构正在兴起。
机架内部:通常需要从机箱引出外部线缆,长度约为2米。 机架间连接:行业和多个标准组织已统一将标准定为7米。 集群计算:由于AI的影响,可能需要更长的距离和信号传输范围,达到10米或更远。
较短距离(取决于具体协议):可以使用被动的直接附加线缆(DAC)。 中等距离(3-5米):可以使用经过重新定时的主动线缆。PCI-SIG最近发布的最新铜缆规范支持这一需求,适用于PCI Express线缆、使用行业标准MCIO互连的PCI Express双轴线缆以及行业标准CDFP MSA解决方案。这些规范支持PCIe 5、PCIe 6,以及在CXL领域支持CXL 2、CXL 3和3.1。 长距离连接(如集群、机架间、机架顶部等):需要采用光学技术。对于32 GT/s的PCIe 5和64 GT/s的PAM4等高速数据传输,铜缆的有效距离有限,因此光学技术成为必然选择。
在光学收发器多源协议(MSA)方面,业界正在研究多种规格尺寸,如OSFP、OSFP XD、CDFP、SFP和SFP+。但是,光学收发器是否是唯一适用于PCI Express,特别是基于光学技术的CXL的规格尺寸?从Samtec的角度来看,我们认为还有其他选择。

为了更好地理解这一点,让我们看一个简化的图示,展示了在数据中心架构或AI系统架构中,光学技术可以应用的位置。传统解决方案通常将光学组件放置在某种MSA机箱中,配备前面板的光缆,直接连接到电路板边缘。这些被称为前面板可插拔(FPP)组件,如OSFP、OSFP XD、CDFP等。
另一个极端是,当我们考虑整个数据中心的未来发展时——不仅是CXL,还包括下一代数据速率(如每通道或每车道224 GB/s的PAM4)——有一种思路是采用共封装光学(CPO)技术。
从Samtec的角度来看,我们专注于板载或中板光学(mid-board optics)技术。我们认为,就设计简易性、信号密度、信号完整性等方面而言,板载光学技术为我们讨论的大多数系统架构(如CXL内存、分离计算、AI集群等)提供了一条可行的前进路径。
需要强调的是,这并不意味着板载光学技术适用于所有情况,也不是要否定前面板可插拔组件的作用。前面板可插拔组件作为标准化解决方案,仍然有其特定的应用场景。但在我们即将进行的演示中,您将看到对于某些CXL使用场景,如点对点通信、内存集群、内存架构和内存服务器,使用中板光学技术可以轻松实现。

Samtec如何实现这些技术?我们不会深入讨论所有产品细节,只介绍一些重点。Samtec拥有一个不断扩大的中板光学收发器系列。我们的设计理念是将光学收发器直接放置在系统的ASIC旁边——无论是GPU、FPGA还是内存控制器等,这种方法可以大大简化PCB布局。信号线路直接从ASIC通过PCB传输到板载PCB连接器,然后进入小型PCB形态的光学引擎。
我们的板载或中板光学收发器目前支持每通道高达32 Gb/s的速度,实现电光转换,支持PCIe 5。我们正在开发PCIe 6的产品。这些收发器具有最小的占地面积,使得在板载系统中可以实现最高密度。更重要的是,我们的光学收发器是协议无关的。Samtec在中板光学技术的设计、制造和实施方面有近15年的经验。我们在PCI Express over optics方面有长期的成功历史,这自然延伸到了CXL over optics。我们还将展示一些在光纤上路由CXL的概念验证。
我们的中板光学收发器还有一个显著优势:它们在系统中非常容易安装和拆卸。它们是表面贴装的,无需过孔,因此可以利用标准制造工艺。从协议角度来看,我们与客户合作,不仅支持以太网光学、InfiniBand光学、光纤通道光学,还特别支持本次网络研讨会的主题——PCIe和CXL光学。

关于PCIe/CXL通过物理层光学接口的问题,我们有一个专门针对PCIe基础设施的光学收发器系列,CXL正是建立在这一基础设施之上。这些光学收发器符合PCI-SIG定义的物理层和电气信号标准,支持在100米范围内的电光转换。我们目前正在开发PCIe 5,预计到2024年底会有中板可用的PCIe 5光学收发器。
这些光学收发器的优点在于它们的可扩展性和灵活性。我们可以支持任意配置,无论是x4、x6、x8还是x16。在CXL解决方案中,我们已经能够展示这些配置。从信号完整性(SI)性能来看,我们观察到的比特错误率优于E-12,这远优于PCI-SIG定义的标准。更重要的是,我们还能够支持CXL内存、CXL缓存和CXL I/O功能。

我们首次展示CXL over optics的概念验证是在2023年秋季的超级计算大会上。我们展示了一个具有本地CXL支持的AMD Genoa平台。Samtec设计了一款PCI Express规格尺寸的扩展卡,配备了我们的PCI Express和CXL光学收发器。我们使用了x8配置(实际上是两个x4模块)。通过这个设置,我们能够通过一个端点访问CXL设备,并在100米的光纤上访问内存。
理论上,如果我们引入CXL开关(这是我们下一步的计划),这将使得内存可以在主机与多个端点之间,或者在端点与多个主机之间进行切换。我们对这项正在进行的工作感到非常兴奋,并已开始与对这种平台感兴趣的客户接触。

除了支持PCI Express信号和CXL协议的光学收发器外,我们还设计了一系列符合行业标准规格尺寸的PCB,以便于最终市场用户启用此功能。我们目前有支持PCIe 4.0 x8和x16的PCI扩展卡解决方案。我们正在开发PCI Express 5.0和CXL 2.0的光学收发器,这些收发器将适配相同的尺寸,计划于年底前推出。
这些扩展卡的优势在于它们高度可配置,可以在同一张卡上支持x4、x8、x16配置。这些扩展卡既可以在主机端使用,也可以在目标端使用。我们还在开发其他标准规格尺寸卡,如OCP NIC、E3.S、E3.S2T、M.2等,以支持CXL over optics,因为随着AI和分离计算的发展,这些系统架构也在不断演变。

关于FireFly在小型化规格尺寸上的密度优势,我们的展示表明,与前面板可插拔组件相比,使用中板光学收发器可以在PCB上节省约4:1的空间。虽然中板光学技术并不适用于所有应用,但对于那些对密度、信号完整性和CXL操作性至关重要的应用,我们的解决方案提供了一种很好的选择。

总结起来,由于AI和数据中心内分离计算的发展,CXL over optics已经成为现实。Samtec拥有业内最全面的中板光学模块和中板光学收发器产品系列,能够支持下一代系统架构。我们期待着这项技术在未来的广泛应用和进一步发展。
=====
对于最大内存的预期延迟数值是什么?性能改进来自哪里?
延迟方面,我们实际上关注的是NUMA跳数。这意味着,当你观察当前的双路系统时,你会看到内存连接到CPU零号和CPU一号上。我们将我们的系统视为下一个跳数。也就是说,假设你有一个四路系统,CPU二号或CPU三号有连接的内存。当我们展示内存池时,它的行为非常类似于多路平台。
性能改进。每个人都在询问性能改进是如何实现的。内存池的改进实际上是通过提供更多带宽来实现的。这意味着CPU,不论是Intel的八个通道,还是AMD的十二个通道,对内存的访问都会得到更多带宽。假设你有一个额外的内存通道,那么CXL实际上是为系统提供了更多的带宽。
另一个改进来自于容量。当设计一个系统时,它是为某种特定的应用程序而设计的,该应用程序消耗特定的内存容量。但在压力环境下,你可能需要更多的内存。比如说,你的服务器有2TB的内存(这很昂贵),但实际上你需要4TB的内存。在内存池中,你可以动态地从内存池中获取额外的2TB内存。你可以在特定或有限的时间内使用这部分内存,然后将其归还给内存池,其他系统也可以使用这部分内存。
总的来说,提供更多的容量和带宽带来了基准测试中所展示的额外性能。
对于不同使用场景,评估和基准测试CXL解决方案的最佳实践和挑战是什么?
我会先从最佳实践谈起,Oren主要讲述了延迟测量。我认为了解目标是什么,如你提到的一个NUMA跳数,以及哪些关键因素影响这些测量,以及不同方式的瓶颈——从DDR速度到CXL链路的宽度——都影响这些测量。
此外,还需要进行压力测试。了解和评估CXL作为内存池或扩展方案的解决方案,但在各种负载下,以了解其行为,并查看带宽与容量的适用性。然后,重点关注基线比较,从裸金属性能比较不同类型的内存,同时也与这些不同使用场景中的传统模型进行比较,以最终了解如何正确基准测试工作负载,以尽可能地模拟实际部署栈和实际使用场景。
目前面临的挑战包括一些CXL系统的复杂性,我认为现在在可用性方面我们处于一个更好的位置。同时,了解CXL是一个不断发展的标准,还有更多工作需要完成。基准测试也在不断发展,以适应不同的分层系统、内存分层模型,并利用这一新的内存层。我们还需要克服从栈底到应用层的集成挑战——包括可管理性,以及寻找不同和高效的内存分层方式。所以,我认为这些是我看到的整体最佳实践和挑战。
Samtec的光纤线缆解决方案是否包括PCI时钟边带信号和3.3 Vaux?
是的,包括。我们经常被问到关于物理实现的问题,其中之一就是如何处理边带信号,这在我们提供的解决方案中已经包含了。这实际上是我们方案的一个优势——它非常优雅、简单易用,并且从设计角度来看也很容易实现。此外,通过光学PCIe链路路由CXL协议,它在许多使用场景中表现良好。所以,简短的回答是肯定的。
关于CXL技术的成熟度,您能分享更多信息吗?
Oren: 目前我们已经在构建系统,已经向客户提供了该技术,并且已经有一些使用CXL的案例。因此,这表明技术已经成熟并投入使用。从硬件角度来看,我们已经得到Intel和AMD的支持。Intel在前一代Sapphire Rapids中支持了CXL,现在在Emerald Rapids中继续支持。下一代产品也将支持CXL。这意味着在CPU方面,我们已经进入了支持CXL的第二代,未来几年将更加广泛地部署。但我们已经在客户那里有了系统,可以开始进行测试。
Matt: 我补充一点,过去几个月我们参加了一些行业活动,多家内存生态系统中的重要参与者已经推出了可靠的SSD、内存设备和其他类似解决方案。因此,我完全赞同Oren的观点:CXL确实已经存在。我们看到它正在被采用,并且看到超大规模数据中心或设备制造商正在构建利用CXL优势和特性的系统。
Ahmed: 我想在Oren和Matt的基础上补充的是,在标准化和兼容性方面,CXL联盟及其工作组已经走在了前列。我们现在正在规划第四次和即将到来的第五次测试活动,多家供应商正在联合参与,我们可以看到生态系统在不断壮大。
Samtec的PCIe 5.0和CXL 2.0以及PCIe 6.0和CXL 3.0光学CXL互连的时间表是什么?
这是一个非常具体的问题,但很重要,也与我们的话题密切相关。我们计划在2024年底至2025年初提供PCIe 5.0和CXL 2.0的光学收发器。我们对此感到非常振奋。虽然我们遇到了一些开发中的障碍,但这在所难免。然后,我们的目标是在2025年下半年推出PCIe 6.0和CXL 3.0。这是我们目前的计划,当然,可能会有所变动,但这是我们现在的规划。
性能存储系统声称在AI市场中优化了低延迟。基于CXL的内存池如何解决延迟问题?
延迟问题本质上是物理层面的挑战。在某些情况下,我们需要使用线缆,而线缆会增加延迟。在系统内部,我们的行为类似于NUMA节点。当你将第二个、第三个NUMA节点与线缆结合起来时,你就会遇到延迟问题。一些公司提供如内存分层等服务,或者支持不同延迟的内存,通过这些方式来克服延迟问题。因此,尽管延迟是一个挑战,但我们已经见到了许多缓解这一问题的软件解决方案。所以,这个问题虽然存在,但是可以解决的。
你如何预测CXL对内存数据库和其他AI应用的设计与部署产生的影响?
Ahmed: 有三个主要方面。首先是资源效率,之前我们讨论过的内存共享和CPU利用率等问题都涉及其中。其次是降低整体延迟,我认为这是优化这些系统整体性能的关键部分。最重要的是,CXL所提供的增强内存容量和带宽,使得这些系统能够缓存更多、更大的数据,与旧有模型相比,能够在内存中保持更多数据。
Matthew: 我赞同Ahmed的观点。扩展性是关键。目前,行业面临的最大挑战之一是如何处理AI模型。我知道我们可能重复了很多次,但这确实是事实。AI模型不断变大,CXL将成为处理这些问题的工具之一,能够提高系统效率,降低延迟,改善缓存一致性。随着CXL 3在芯片组上本地支持以及更多基础设施的出现,我认为市场对其的采纳只是时间问题。
Oren: 我想补充一点。我们已经看到NVIDIA GPU使用其专有的NVLink解决方案,CXL是NVLink的替代方案。我们已经看到AMD在一些活动中展示了下一代GPU将支持CXL。整个市场正在转向基于CXL的内存池,因为这不是一个专有解决方案,而是一个开放的标准。接口是标准的,所有信息都完全公开。因此,你会看到很多供应商,当有很多供应商时,首先,集成变得容易——虽然不容易,但可行。其次,当转向标准系统时,价格会下降。因此,你将拥有低成本的接口,来自多个供应商的众多解决方案,包括内存、接口和平台管理等。这些因素将推动基于CXL的解决方案变得更加普及。特别是对于AI,这一点非常重要,因为你知道现在AI系统的成本是多么高昂。
你能详细说明哪些使用场景可能会使用光学CXL互连吗?
这是一个非常重要的问题。我认为,随着光学收发器解决方案的普及和行业标准的形成,具体的使用场景将决定其采纳情况。显然,在数据中心中,尤其是GPU集群中,光学互连的使用非常广泛。我认为,我们之前谈到的CXL在扩展性和延迟方面的优势,以及它在AI应用中的许多使用场景,将推动光学CXL的采纳。CXL在系统内部的PCB上的芯片间连接有许多好处,但通过光学方式将其扩展到10米或更远,将极大推动其发展。目前,Samtec已经能够使用光学CXL,包括Type 1、Type 2,我们也在关注Type 3。我们非常期待看到如何在CXL 2.0解决方案中使用光学技术,无论是在内存池还是跨CXL交换机。因此,我可能有点超前了,但我认为光学CXL互连的采纳前景几乎是无限的,并且会越来越多地被采用,尤其是在面对AI系统模型和分布式计算的设计和技术挑战时。
为多个主机实时分配内存非常复杂。UnifabriX如何应对这一挑战?
UnifabriX开发了一种基于CXL的内存池设备,专为数据中心和高性能计算(HPC)设计。该设备突破了限制内存容量和带宽的插槽连接DRAM的局限性。 内存池可以分为多个层级,每个层级提供增强的容量和带宽。每台主机可以通过GUI进行静态分配或通过API按需分配内存。这使得多个主机能够连接到内存设备并访问其CXL内存资源。 UnifabriX通过从CXL池中分配缓存一致的远程内存,支持服务器的动态内存扩展。 UnifabriX采取以性能为中心的方法,释放了数据中心基础设施的速度、密度和规模,从而提升了HPC、AI/ML和存储系统的性能。
在CXL实施中,RAS、数据安全和管理方面可能存在哪些问题,如何解决这些问题?
我们看到的RAS(可靠性、可用性和可服务性)方面的关注点包括内存的可靠性、稳定性以及在运行时和预启动阶段的修复。对于管理性,作为一个生态系统,我们还需要更多的工作来加强动态内存的分配和回收。最后,对于安全性,需要保护共享内存环境中的数据在传输和静止状态下的安全。为缓解这些问题,关键在于设备特性和生态系统对齐的组合。例如,实施强大的错误检测和纠正机制,并通过测试来自所有供应商的DIMM来确保其可靠性。利用不同的加密技术来保护内存池中所有设备不同阶段的数据,并在需要时使用冗余路径和故障转移机制来增强可用性。
中板光学解决方案相比光学收发器MSA标准解决方案有哪些优势?
光学收发器MSA标准解决方案是数据中心前面板连接的基础。它们具有成本效益、已知的规格尺寸、稳定的供应链,并在行业中得到广泛采用。然而,AI/ML和分布式计算的突破要求在机架内部、机架间以及GPU集群中采用新的拓扑结构。中板光学提供了改进的信号完整性(SI)、更高的密度以及对系统架构师在支持CXL的创新拓扑中更多的灵活性。
能否详细说明哪些使用场景可能会使用光学CXL互连?
我们看到对光学CXL连接的即时需求,尤其是在Type 1、Type 2和Type 3设备中。由于信号传输距离的要求,无论是在机架内部还是机架间的资源池,都需要光学连接。可组合网络也是如此。光学CXL连接是实现CXL技术所有优势的必要条件。
主机和内存池之间的硬件接口是什么?是PCIe接口还是其他接口?
这是一个有意思但复杂的问题。CXL协议利用了各种PCIe规格所定义的物理和电气接口,例如CXL 1.1/2.0和PCIe 5.0以及CXL 3.1和PCIe 6.0等。主机和内存池之间的硬件接口可以利用由PCI-SIG、SNIA、OCP等标准组织定义的任何拓扑。目前市场上已经可以看到利用PCIe 5.0接口的E3.S 2T规格尺寸的CXL内存模块。PCI-SIG CEM AIC规格尺寸也非常流行。新的PCI-SIG CopprLink线缆规范还引入了内部和外部线缆方案。光学CXL互连也是可选的。最终,主机和内存池之间的硬件接口将取决于具体的使用场景和拓扑需求。
---【本文完】---
近期受欢迎的文章:
更多交流,可加本人微信
(请附中文姓名/公司/关注领域)





