参考架构：为超大规模AI构建高效数据基础设施

Andy730 2024-08-25

100

核心内容

数据规模剧增：AI技术发展推动企业存储数据规模迅速攀升，从过去的几PB扩展至现今的100至200PB，众多企业正迈向超大规模阶段。
存储架构重构：生成式AI促使企业重新设计存储架构。相较于云存储，许多企业选择在本地部署大规模存储集群，可节省60%至70%的成本。
存储与计算解耦：该架构将存储与计算资源分离，实现独立扩展。这一策略至关重要，因存储增长速度通常快于计算资源，从而提升经济效益和容量利用率。
AI工作负载网络优化：架构采用行业标准以太网解决方案，处理存储与GPU计算服务器间的高吞吐量数据传输。相比Infiniband等复杂网络方案，这种方法具有更大生态系统、较低成本和高互连速度等优势。
超算经验应用：借鉴超级计算领域经验，通过“可扩展单元”简化系统部署和扩展流程，使之成为实现EB级存储的有效解决方案。

-----

数据是现代企业的核心竞争力。这需要一个支持AI/ML的数据基础设施，同时能够支撑现代数据湖，以支持商业智能、数据分析和数据科学。无论是在AI应用的起步阶段，还是在利用AI获得高级洞察的过程中，这都是企业运营的基础，并将在可预见的未来成为企业被认知的方式。

AI在企业落地面临多维挑战，包括数据摄取、转化、训练、推理、生产和归档，每个阶段的数据都需共享。随着工作负载扩大，底层AI数据基础设施复杂性增加，因此需要高性能基础设施，同时降低总体拥有成本（TCO）。

MinIO公司为支持超大规模AI和其他大规模数据湖工作负载创建了全面的基础设施蓝图，称为MinIO DataPod，其计量单位为100 PiB。选择这个标准是因为它在当今企业中已非常普遍。以下是几个简要示例：

北美某汽车制造商拥有近1EB的车载视频数据
德国某汽车制造商拥有超过50 PiB的车辆遥测数据
某生物科技公司拥有超过50 PiB的生物、化学及患者数据
某网络安全公司拥有超过500 PiB的日志文件
某媒体流媒体公司拥有超过200 PiB的视频数据
某国防承包商拥有超过80 PiB的地理空间数据、日志和飞机遥测数据

即使目前数据量未达100 PiB，也将在几个季度内达到。平均而言，普通公司数据量年增长率为42%，数据密集型企业的增长速度是这个数字的两倍甚至更多。

MinIO DataPod参考架构可以以不同方式堆叠，实现几乎任何规模的扩展。实际上，我们已有客户基于此蓝图构建了超过1EB的存储系统，并使用了多家硬件供应商的产品。MinIO DataPod提供了端到端架构，使基础设施管理员能为各种AI和ML工作负载部署具成本效益的解决方案。以下是我们的架构设计理念。

AI需要存储与计算解耦的架构

AI工作负载，尤其是生成式AI，天然需要GPU进行计算。GPU作为计算设备，具有惊人的吞吐量、内存带宽和并行处理能力。随着GPU性能不断提升，存储必须具备更高速度以满足需求。这在训练数据无法全部加载到内存且训练循环需频繁访问存储时尤为重要。此外，企业不仅要求高性能，还需保障安全性、数据复制和系统韧性。

企业级存储需求决定了架构必须将存储与计算完全解耦。这种解耦允许存储独立于计算扩展，鉴于存储增长通常比计算增长大一个或多个数量级，这种方法通过优化容量利用率确保最佳经济性。

AI工作负载对网络提出不同要求

AI工作负载部署的网络基础设施已标准化为100Gbps带宽链接。现代NVMe硬盘平均提供7GBps吞吐量，使存储服务器与GPU计算服务器间的网络带宽成为AI管道执行性能瓶颈。

使用如Infiniband(IB)等复杂网络解决方案存在实际局限性。我们建议企业利用现有的、基于以太网的行业标准解决方案（如基于TCP的HTTP），无需复杂配置即可为GPU提供高吞吐量数据传输，原因如下：

更大且开放的生态系统
降低网络基础设施成本
高速互联（支持800 GbE及以上）并支持以太网上的RDMA（即RoCEv2）
可复用现有以太网部署、管理和监控的专业知识和工具
基于以太网的解决方案在GPU与存储服务器通信领域创新不断发展

AI需求决定了对象存储的必要性

公有云中的AI数据基础设施全部基于对象存储并非巧合。每一个主要基础模型都在对象存储上训练，这也非偶然。这是因为POSIX文件系统在AI所需的数据规模下，过于频繁的操作交互并不适用——尽管传统文件存储厂商可能声称相反。

用于公有云的AI架构同样适用于私有云，显然也适用于混合云。对象存储在处理各种数据格式和大量非结构化数据方面表现出色，并可毫不费力地扩展以适应日益增长的数据量，同时不牺牲性能。其扁平命名空间和元数据管理能力使数据管理和处理更加高效，这对需要快速访问大规模数据集的AI任务至关重要。

随着高速GPU发展和网络带宽标准化达到200/400/800 Gbps及更高水平，现代对象存储将成为唯一能满足AI工作负载性能SLA和扩展性要求的解决方案。

软件定义一切

我们知道，GPU是AI计算的核心硬件，但即便Nvidia也会告诉你，真正的关键在于CUDA。然而，超越芯片层面后，基础设施世界日益向软件定义方向发展，尤其是在存储领域。软件定义存储解决方案在可扩展性、灵活性和云集成方面优于传统基于设备的模式，原因如下：

云兼容性：软件定义存储能与云操作模式对齐，而设备无法跨多个云环境运行。
容器化：设备无法容器化，失去云原生优势，且无法实现Kubernetes编排。
硬件灵活性：软件定义存储支持从边缘到核心的广泛硬件，适应多样化IT环境。
自适应性能：软件定义存储提供无与伦比的灵活性，能在各种芯片组上高效管理不同容量和性能需求。

在超大规模下，简化操作和采用基于云的运营模式至关重要。作为软件定义解决方案，对象存储应能在商用现成（COTS）硬件以及任何计算平台上无缝运行，无论是裸机、虚拟机还是容器。

定制硬件设备通常通过昂贵硬件和复杂解决方案来弥补设计不良的软件，这最终导致高昂的总体拥有成本（TCO）。

MinIO DataPodAI硬件规范

企业客户在使用MinIO进行AI项目时，通常以100 PiB为单位重复部署超大规模数据基础设施。这种方法有助于基础设施管理员在AI数据呈指数级增长过程中简化部署、维护和扩展流程。以下是构建100 PiB规模数据基础设施的物料清单（BOM）。

集群规范

机架数量：30
存储服务器总数：330
每机架存储服务器数：11
TOR交换机数量：60
Spine交换机数量：10
纠删码条带大小：10
纠删码冗余度：4

单机架规范

机架结构：42U/45U机架，数量：1
存储服务器：2U机型，数量：11
顶部交换机：二层交换机，数量：2
管理交换机：二/三层交换机，数量：1
网络线缆：AOC线缆，数量：30-40
电源：双电源供电，配RPDU，功率：17kW 20kW

存储服务器规范

服务器：2U，单路处理器
CPU：64核，128条PCIe 4.0通道
内存：256 GB
网络：双端口，200GbE NIC
硬盘位：24个热插拔2.5英寸U.2 NVMe硬盘位
硬盘：30TB 24 NVMe
电源：1600W冗余电源
总原始容量：720 TB

存储服务器参考型号

Dell：PowerEdge R7615机架服务器
HPE：ProLiant DL345 Gen11
Supermicro：A+ Server 2114S-WN24RT

网络交换机规范

TOR交换机：32个100GbE QSFP28端口
Spine交换机：64个100GbE QSFP28端口
线缆：100G QSFP28 AOC
电源：每交换机500瓦

价格

MinIO已通过多位客户验证此架构，并预期其他客户在以下平均每TB每月价格范围内获得类似结果。这是平均市场价格，实际价格可能因配置和硬件供应商关系而异。

规模及价格（100 PiB）：

存储硬件价格（每TB/月）：$1.50
MinIO软件价格（每TB/月）：$3.54

供应商提供的专用硬件设备虽能满足AI需求，但在超大规模AI项目中，由于总拥有成本（TCO）较高，从单位经济性角度看，不具备可扩展性。

结论

在超大规模下构建数据基础设施，同时满足所有AI/ML工作负载的TCO目标，可能非常复杂且难以实现。MinIO的DataPOD基础设施蓝图使基础设施管理员能够简便快捷地搭建所需的商用现成（COTS）硬件，并配备高度可扩展、性能优越且具成本效益的S3兼容MinIO企业对象存储，从而提升组织内AI项目的整体上市时间，并加快价值实现。

-----

Source:The MinIO DataPod: A Reference Architecture for Exascale; Rakshith Venkatesh; 1 August 2024

---【本文完】---

近期受欢迎的文章：