AI工作负载的兴起对数据中心存储基础设施提出了巨大挑战,因为AI工作负载在训练AI模型和执行推理时需要大量的算力、数据吞吐量和存储容量。
因此,大多数主要存储厂商通过与Nvidia等公司的合作,对存储系统进行了优化以支持大规模的AI工作负载。一些供应商还将GenAI功能集成到存储系统中,例如存储资源管理和性能优化。
主要的云存储平台,包括AWS S3、Google Cloud Storage和Microsoft Azure,推出了针对AI工作负载优化的存储服务,包括对象存储、块存储和分布式文件存储。
此外,存储厂商推出了面向AI工作负载的专用存储解决方案。这些解决方案提供高性能全闪存阵列、高吞吐量对象存储和云原生集成等功能,满足GenAI应用对性能、容量和灵活性的需求。
AI专用存储产品
在今年5月的Pure Accelerate 2024大会上,Pure Storage发布了一款AI助手,旨在帮助IT管理员使用自然语言管理存储设备群。据该公司称,该助手利用Pure客户的数据洞察来帮助调查问题并主动保护数据。同样,Dell也在5月份为其APEX产品推出了一个生成式AI助手,提供自然语言界面来解决基础设施问题。
Pure早在2018年就推出了业界首款AI专用基础设施AIRI系统,并于本月推出了新的AI存储即服务系统Evergreen One for AI。据该公司称,该系统提供“保证的GPU存储性能,以支持训练、推理和HPC工作负载”。
除了Pure Storage之外,还有一些其他支持生成式AI的存储系统,包括:
Dell AI Factory:这一硬件、软件和服务组合支持AI,包括新的PowerScale Scale-out文件系统,用于处理非结构化数据和训练任务。
Hitachi Vantara的Hitachi iQ:提供行业特定的AI系统,将Nvidia DGX和HGX GPU与公司的存储系统结合使用。
HPE:升级了其Alletra MP存储阵列,以支持更高的服务器连接性和容量,同时将Nvidia的Magnum微服务集成到其生成式AI超级计算和企业系统中。
IBM Spectrum Storage for AI:与Nvidia DGX集成,提供一个融合的、可扩展的系统,包含计算、存储和网络,专为AI工作负载设计。
NetApp:提供与Nvidia BasePod和SuperPod的产品集成,并将Nvidia的NeMo Retriever微服务集成到其OnTap混合云存储中。
VAST Data:2023年推出了VAST Data Platform,该平台将QLC闪存和快速缓存存储子系统与数据库级别的能力结合在本地存储IO级别,并获得DGX认证。
WEKA:一家混合云NAS提供商,推出了与Nvidia DGX SuperPod AI基础设施兼容的硬件设备。
Western Digital:最近推出了新的高性能SSD和大容量HDD,专为AI工作负载设计。
特性评估因素
评估支持AI项目的基础设施供应商时,应重点关注以下特性:
可扩展且灵活的算力
用于AI工作负载的存储系统应提供可扩展且灵活的计算资源,包括支持复杂AI模型训练和推理的GPU和TPU。
基础设施还应能够根据工作负载需求动态扩展或缩减,以确保资源利用效率。
高带宽网络
AI驱动的存储应提供低延迟和高带宽的网络,以支持大数据集的传输和计算资源的连接。
网络基础设施应经过优化以减轻潜在的瓶颈,确保AI驱动应用程序的低推理时间。
智能数据管理
存储产品中的AI助手应能够自动管理和配置存储基础设施,包括优化工作负载分配、预测和预防系统故障,以及主动规划资源和容量需求。
智能数据分类 基于策略的数据保护任务 增强安全措施以保护组织数据
与生成式AI集成
系统应无缝集成生成式AI和LLM,以改进整个数据管道中的数据操作。
自动数据可观测性 主动问题识别和解决 生成报告和可视化以提高数据团队的生产力
AI存储的关键准备工作
随着生成式AI技术的发展,其对存储基础设施提出了新的挑战和需求。为确保AI应用的成功部署,IT专业人员必须做好充分准备,迎接这些挑战。
1. 海量数据存储与高速传输
生成式AI模型的训练和运行过程中会产生大量数据,且数据更新速度快。因此,存储基础设施必须具备高吞吐量和低延迟的性能,能够满足海量数据的存储和快速传输需求。不足的存储容量和性能会导致瓶颈,影响模型训练和推理速度。
2. 弹性扩展与容量规划
AI模型的数据需求会随着时间推移而不断增长。因此,存储方案需具备弹性扩展能力,能够根据实际需求进行容量扩充。同时,还需要进行全面的容量规划和压力测试,确保存储能够满足当前和未来的数据增长需求。
3. 数据安全与合规治理
生成式AI模型通常会涉及敏感数据,例如个人信息或商业机密。因此,必须采取强有力的数据安全措施,包括加密、访问控制和数据血缘追踪,以保护数据安全,防止数据泄露和合规违规。此外,存储环境还需符合相关的数据治理政策和监管要求。
4. 开放架构与灵活集成
AI生态系统由计算、网络、软件等多种组件组成。存储方案需采用模块化、开放架构的设计,能够与各种AI框架和工具无缝集成,避免供应商锁定,降低采购成本,提高维护效率。
Source:TechTarget; AI-focused storage choices, features and considerations; 28 Jun 2024
--【本文完】---
近期受欢迎的文章:
更多交流,可添加本人微信
(请附姓名/单位/关注领域)





