核心内容
数据规模剧增:AI技术发展推动企业存储数据规模迅速攀升,从过去的几PB扩展至现今的100至200PB,众多企业正迈向超大规模阶段。 存储架构重构:生成式AI促使企业重新设计存储架构。相较于云存储,许多企业选择在本地部署大规模存储集群,可节省60%至70%的成本。 存储与计算解耦:该架构将存储与计算资源分离,实现独立扩展。这一策略至关重要,因存储增长速度通常快于计算资源,从而提升经济效益和容量利用率。 AI工作负载网络优化:架构采用行业标准以太网解决方案,处理存储与GPU计算服务器间的高吞吐量数据传输。相比Infiniband等复杂网络方案,这种方法具有更大生态系统、较低成本和高互连速度等优势。 超算经验应用:借鉴超级计算领域经验,通过“可扩展单元”简化系统部署和扩展流程,使之成为实现EB级存储的有效解决方案。
-----
数据是现代企业的核心竞争力。这需要一个支持AI/ML的数据基础设施,同时能够支撑现代数据湖,以支持商业智能、数据分析和数据科学。无论是在AI应用的起步阶段,还是在利用AI获得高级洞察的过程中,这都是企业运营的基础,并将在可预见的未来成为企业被认知的方式。
AI在企业落地面临多维挑战,包括数据摄取、转化、训练、推理、生产和归档,每个阶段的数据都需共享。随着工作负载扩大,底层AI数据基础设施复杂性增加,因此需要高性能基础设施,同时降低总体拥有成本(TCO)。
北美某汽车制造商拥有近1EB的车载视频数据 德国某汽车制造商拥有超过50 PiB的车辆遥测数据 某生物科技公司拥有超过50 PiB的生物、化学及患者数据 某网络安全公司拥有超过500 PiB的日志文件 某媒体流媒体公司拥有超过200 PiB的视频数据 某国防承包商拥有超过80 PiB的地理空间数据、日志和飞机遥测数据
即使目前数据量未达100 PiB,也将在几个季度内达到。平均而言,普通公司数据量年增长率为42%,数据密集型企业的增长速度是这个数字的两倍甚至更多。
MinIO DataPod参考架构可以以不同方式堆叠,实现几乎任何规模的扩展。实际上,我们已有客户基于此蓝图构建了超过1EB的存储系统,并使用了多家硬件供应商的产品。MinIO DataPod提供了端到端架构,使基础设施管理员能为各种AI和ML工作负载部署具成本效益的解决方案。以下是我们的架构设计理念。
AI需要存储与计算解耦的架构
AI工作负载,尤其是生成式AI,天然需要GPU进行计算。GPU作为计算设备,具有惊人的吞吐量、内存带宽和并行处理能力。随着GPU性能不断提升,存储必须具备更高速度以满足需求。这在训练数据无法全部加载到内存且训练循环需频繁访问存储时尤为重要。此外,企业不仅要求高性能,还需保障安全性、数据复制和系统韧性。
企业级存储需求决定了架构必须将存储与计算完全解耦。这种解耦允许存储独立于计算扩展,鉴于存储增长通常比计算增长大一个或多个数量级,这种方法通过优化容量利用率确保最佳经济性。
AI工作负载对网络提出不同要求
AI工作负载部署的网络基础设施已标准化为100Gbps带宽链接。现代NVMe硬盘平均提供7GBps吞吐量,使存储服务器与GPU计算服务器间的网络带宽成为AI管道执行性能瓶颈。
更大且开放的生态系统 降低网络基础设施成本 高速互联(支持800 GbE及以上)并支持以太网上的RDMA(即RoCEv2) 可复用现有以太网部署、管理和监控的专业知识和工具 基于以太网的解决方案在GPU与存储服务器通信领域创新不断发展
AI需求决定了对象存储的必要性
公有云中的AI数据基础设施全部基于对象存储并非巧合。每一个主要基础模型都在对象存储上训练,这也非偶然。这是因为POSIX文件系统在AI所需的数据规模下,过于频繁的操作交互并不适用——尽管传统文件存储厂商可能声称相反。
用于公有云的AI架构同样适用于私有云,显然也适用于混合云。对象存储在处理各种数据格式和大量非结构化数据方面表现出色,并可毫不费力地扩展以适应日益增长的数据量,同时不牺牲性能。其扁平命名空间和元数据管理能力使数据管理和处理更加高效,这对需要快速访问大规模数据集的AI任务至关重要。
随着高速GPU发展和网络带宽标准化达到200/400/800 Gbps及更高水平,现代对象存储将成为唯一能满足AI工作负载性能SLA和扩展性要求的解决方案。
软件定义一切
云兼容性:软件定义存储能与云操作模式对齐,而设备无法跨多个云环境运行。 容器化:设备无法容器化,失去云原生优势,且无法实现Kubernetes编排。 硬件灵活性:软件定义存储支持从边缘到核心的广泛硬件,适应多样化IT环境。 自适应性能:软件定义存储提供无与伦比的灵活性,能在各种芯片组上高效管理不同容量和性能需求。
在超大规模下,简化操作和采用基于云的运营模式至关重要。作为软件定义解决方案,对象存储应能在商用现成(COTS)硬件以及任何计算平台上无缝运行,无论是裸机、虚拟机还是容器。
定制硬件设备通常通过昂贵硬件和复杂解决方案来弥补设计不良的软件,这最终导致高昂的总体拥有成本(TCO)。
MinIO DataPodAI硬件规范
企业客户在使用MinIO进行AI项目时,通常以100 PiB为单位重复部署超大规模数据基础设施。这种方法有助于基础设施管理员在AI数据呈指数级增长过程中简化部署、维护和扩展流程。以下是构建100 PiB规模数据基础设施的物料清单(BOM)。
集群规范

机架数量:30 存储服务器总数:330 每机架存储服务器数:11 TOR交换机数量:60 Spine交换机数量:10 纠删码条带大小:10 纠删码冗余度:4
单机架规范

机架结构:42U/45U机架,数量:1 存储服务器:2U机型,数量:11 顶部交换机:二层交换机,数量:2 管理交换机:二/三层交换机,数量:1 网络线缆:AOC线缆,数量:30-40 电源:双电源供电,配RPDU,功率:17kW 20kW
存储服务器规范
服务器:2U,单路处理器 CPU:64核,128条PCIe 4.0通道 内存:256 GB 网络:双端口,200GbE NIC 硬盘位:24个热插拔2.5英寸U.2 NVMe硬盘位 硬盘:30TB 24 NVMe 电源:1600W冗余电源 总原始容量:720 TB
存储服务器参考型号
Dell:PowerEdge R7615机架服务器 HPE:ProLiant DL345 Gen11 Supermicro:A+ Server 2114S-WN24RT
网络交换机规范

TOR交换机:32个100GbE QSFP28端口 Spine交换机:64个100GbE QSFP28端口 线缆:100G QSFP28 AOC 电源:每交换机500瓦
价格
MinIO已通过多位客户验证此架构,并预期其他客户在以下平均每TB每月价格范围内获得类似结果。这是平均市场价格,实际价格可能因配置和硬件供应商关系而异。
存储硬件价格(每TB/月):$1.50 MinIO软件价格(每TB/月):$3.54
供应商提供的专用硬件设备虽能满足AI需求,但在超大规模AI项目中,由于总拥有成本(TCO)较高,从单位经济性角度看,不具备可扩展性。
结论
在超大规模下构建数据基础设施,同时满足所有AI/ML工作负载的TCO目标,可能非常复杂且难以实现。MinIO的DataPOD基础设施蓝图使基础设施管理员能够简便快捷地搭建所需的商用现成(COTS)硬件,并配备高度可扩展、性能优越且具成本效益的S3兼容MinIO企业对象存储,从而提升组织内AI项目的整体上市时间,并加快价值实现。
Source:The MinIO DataPod: A Reference Architecture for Exascale; Rakshith Venkatesh; 1 August 2024
---【本文完】---
近期受欢迎的文章:
更多交流,可加本人微信
(请附中文姓名/公司/关注领域)





