暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

AI存储解决方案:选择、功能和考虑因素

Andy730 2024-07-10
94

AI工作负载的兴起对数据中心存储基础设施提出了巨大挑战,因为AI工作负载在训练AI模型和执行推理时需要大量的算力、数据吞吐量和存储容量。

因此,大多数主要存储厂商通过与Nvidia等公司的合作,对存储系统进行了优化以支持大规模的AI工作负载。一些供应商还将GenAI功能集成到存储系统中,例如存储资源管理和性能优化。

主要的云存储平台,包括AWS S3、Google Cloud Storage和Microsoft Azure,推出了针对AI工作负载优化的存储服务,包括对象存储、块存储和分布式文件存储。

此外,存储厂商推出了面向AI工作负载的专用存储解决方案。这些解决方案提供高性能全闪存阵列、高吞吐量对象存储和云原生集成等功能,满足GenAI应用对性能、容量和灵活性的需求。

AI专用存储产品

在今年5月的Pure Accelerate 2024大会上,Pure Storage发布了一款AI助手,旨在帮助IT管理员使用自然语言管理存储设备群。据该公司称,该助手利用Pure客户的数据洞察来帮助调查问题并主动保护数据。同样,Dell也在5月份为其APEX产品推出了一个生成式AI助手,提供自然语言界面来解决基础设施问题。

Pure早在2018年就推出了业界首款AI专用基础设施AIRI系统,并于本月推出了新的AI存储即服务系统Evergreen One for AI。据该公司称,该系统提供“保证的GPU存储性能,以支持训练、推理和HPC工作负载”。

除了Pure Storage之外,还有一些其他支持生成式AI的存储系统,包括:

  • Dell AI Factory:这一硬件、软件和服务组合支持AI,包括新的PowerScale Scale-out文件系统,用于处理非结构化数据和训练任务。

  • Hitachi Vantara的Hitachi iQ:提供行业特定的AI系统,将Nvidia DGX和HGX GPU与公司的存储系统结合使用。

  • HPE:升级了其Alletra MP存储阵列,以支持更高的服务器连接性和容量,同时将Nvidia的Magnum微服务集成到其生成式AI超级计算和企业系统中。

  • IBM Spectrum Storage for AI:与Nvidia DGX集成,提供一个融合的、可扩展的系统,包含计算、存储和网络,专为AI工作负载设计。

  • NetApp:提供与Nvidia BasePod和SuperPod的产品集成,并将Nvidia的NeMo Retriever微服务集成到其OnTap混合云存储中。

  • VAST Data:2023年推出了VAST Data Platform,该平台将QLC闪存和快速缓存存储子系统与数据库级别的能力结合在本地存储IO级别,并获得DGX认证。

  • WEKA:一家混合云NAS提供商,推出了与Nvidia DGX SuperPod AI基础设施兼容的硬件设备。

  • Western Digital:最近推出了新的高性能SSD和大容量HDD,专为AI工作负载设计。

特性评估因素

评估支持AI项目的基础设施供应商时,应重点关注以下特性:

可扩展且灵活的算力

用于AI工作负载的存储系统应提供可扩展且灵活的计算资源,包括支持复杂AI模型训练和推理的GPU和TPU。

基础设施还应能够根据工作负载需求动态扩展或缩减,以确保资源利用效率。

高带宽网络

AI驱动的存储应提供低延迟和高带宽的网络,以支持大数据集的传输和计算资源的连接。

网络基础设施应经过优化以减轻潜在的瓶颈,确保AI驱动应用程序的低推理时间。

智能数据管理

存储产品中的AI助手应能够自动管理和配置存储基础设施,包括优化工作负载分配、预测和预防系统故障,以及主动规划资源和容量需求。

AI驱动的智能数据管理功能还应包括:
  • 智能数据分类
  • 基于策略的数据保护任务
  • 增强安全措施以保护组织数据

与生成式AI集成

系统应无缝集成生成式AI和LLM,以改进整个数据管道中的数据操作。

AI能力应能够实现:
  • 自动数据可观测性
  • 主动问题识别和解决
  • 生成报告和可视化以提高数据团队的生产力

AI存储的关键准备工作

随着生成式AI技术的发展,其对存储基础设施提出了新的挑战和需求。为确保AI应用的成功部署,IT专业人员必须做好充分准备,迎接这些挑战。

1. 海量数据存储与高速传输

生成式AI模型的训练和运行过程中会产生大量数据,且数据更新速度快。因此,存储基础设施必须具备高吞吐量和低延迟的性能,能够满足海量数据的存储和快速传输需求。不足的存储容量和性能会导致瓶颈,影响模型训练和推理速度。

2. 弹性扩展与容量规划

AI模型的数据需求会随着时间推移而不断增长。因此,存储方案需具备弹性扩展能力,能够根据实际需求进行容量扩充。同时,还需要进行全面的容量规划和压力测试,确保存储能够满足当前和未来的数据增长需求。

3. 数据安全与合规治理

生成式AI模型通常会涉及敏感数据,例如个人信息或商业机密。因此,必须采取强有力的数据安全措施,包括加密、访问控制和数据血缘追踪,以保护数据安全,防止数据泄露和合规违规。此外,存储环境还需符合相关的数据治理政策和监管要求。

4. 开放架构与灵活集成

AI生态系统由计算、网络、软件等多种组件组成。存储方案需采用模块化、开放架构的设计,能够与各种AI框架和工具无缝集成,避免供应商锁定,降低采购成本,提高维护效率。

-----

Source:TechTarget; AI-focused storage choices, features and considerations; 28 Jun 2024


--【本文完】---

近期受欢迎的文章:

  1. 利用CXL技术,提升AI和HPC性能

  2. Samsung与VMware合作案例:基于CXL的内存分层技术

  3. 运用CXL技术,突破“内存墙”(Astera)

  4. NVIDIA产品和技术进展(HPC/AI)

  5. AI存储需求(SNIA CMSS峰会)



更多交流,可添加本人微信

(请附姓名/单位/关注领域)

文章转载自Andy730,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论