核心观点
现状问题
AI及机器学习(ML)的迅猛发展使对数据的需求大幅攀升,特别是海量数据对AI模型的训练与推理至关重要。 传统的数据管理方法已无法满足现代AI应用的需求,数据中心正承受巨大的存储与处理压力。
AI应用对计算、网络和存储资源的需求极为庞大,导致能源消耗和成本显著增加。 大型语言模型(LLM)如ChatGPT的训练和推理过程需要大量电力,碳排放量较高。
基于云的AI服务可能无法满足企业级AI工作负载的低延迟需求,从而降低数据访问效率。 高性能存储系统在处理大量AI数据时成本高昂,且难以长期维持。
解决方案
主动归档利用智能数据管理软件,将数据分层存储在不同位置和存储层级,确保数据在需要时能够快速访问。 主动归档支持多种存储介质和协议,提供高度的灵活性和全生命周期管理。
根据数据活跃度、成本和性能,自动将数据迁移到最适宜的存储位置,优化存储资源的利用。 通过元数据和全局命名空间技术,确保数据在任何存储平台或介质上都可访问、搜索和检索。
通过将非活动数据迁移到低成本存储中,减轻主存储的负担,降低云存储和带宽费用。 智能数据管理软件帮助IT决策者优化数据存储策略,减少硬件采购和能源成本。
主动归档提供多层次的安全功能,包括加密、多因素认证、访问控制等,以保护数据免受网络威胁。 采用WORM(只写一次,多次读取)和离线存储等技术,确保数据的完整性和长期可用性。
未来趋势
AI和ML将进一步推动数据管理技术的创新,智能数据管理层将变得更加自动化和高效。 主动归档将成为AI基础设施的关键组成部分,支持大规模数据处理和分析。
随着数据中心能耗问题的加剧,主动归档技术将在降低能源消耗和碳排放方面发挥重要作用。 通过将冷数据存储在低能耗介质上,如磁带和陶瓷玻璃,实现更环保的存储解决方案。
主动归档不仅在医疗和视频监控行业中应用广泛,还将在金融、制造、零售等多个行业中发挥重要作用。 AI与主动归档的结合将帮助企业更有效地管理和利用海量数据,提升业务效率和竞争力。
数据支持
2016年,主动归档的存储容量达到1泽字节(ZB),2022年达到4.8 ZB,预计2035年将超过50 ZB。 88%使用AI的组织经历了计算需求的显著增长,其中47%的组织计算需求翻倍或更多。 74%的组织表示,AI的应用促使他们对IT基础设施进行了重大升级或彻底改造。 主动归档的年增长率平均为30%,数据在主动归档中的保留时间平均为11年。
《主动归档联盟》2024年特别报告:主动归档如何助力现代AI战略
我们诚挚邀请各位读者阅读本报告,并感谢联盟成员们持续的贡献。我们同样热烈欢迎新成员加入,他们的创新产品和服务将为联盟注入新的活力。
本报告聚焦于AI/ML对数据管理与治理的深远影响,并探讨如何优化相关规划。尽管许多AI应用者将重心放在数据的前端处理与分析,但随着AI工作负载的持续增长,对长期数据保存与保护的需求也日益迫切。
AI的迅猛发展无疑将加剧对IT基础设施的整体需求,包括机房、电力、冷却等。在IT行业已面临成本控制与能耗挑战的背景下,AI工作流的各个环节均需精细规划。对主动归档的投入应从单一数据项目转变为涵盖各行业、各领域的可持续数据规划。
在存储领域,我们倡导采用现代化策略应对数据爆炸,而主动归档是实现这一目标的有效途径。对于当今数据驱动型与AI驱动的组织而言,智能数据管理与主动归档的优势将成为未来战略的必然选择。
我们诚邀您与联盟成员合作,借助他们的专业知识与创新产品,共同构建一种全新的可持续方法,以支持最佳数据存储,确保数据在先进AI工作流中始终可用且价值凸显。
AI/ML背景下的主动归档介绍
AI和机器学习(ML)正在深刻地改变IT格局。从模型规模到数据中心密度,各方面都要求对IT基础设施进行全面革新。AI的迅猛发展凸显了对全新解决方案的需求,包括能源效率、数据管理和信息聚合。
AI应用对数据的渴求无止境,只有海量数据才能得出准确结论并提供现代企业所需的洞见。然而,传统的数据管理方式已使数据中心不堪重负。许多行业的数据在短时间内即失去访问价值,但医疗等行业却需要长期、快速地访问历史数据。因此,根据访问频次、延迟和成本,将数据分层存储,而非将所有数据集中在昂贵的主存储上,是一种更为合理的策略。这种架构能更好地适应数据管理中固有的多样化服务水平需求。
主动归档应运而生,为组织应对上述挑战提供了有力工具,并助力他们充分挖掘大规模AI数据集的潜力。主动归档的智能数据管理软件能将数据分散存储于多个位置和存储层级,同时确保数据在需要时随时可访问,以满足包括AI工作流在内的各种用户需求。
智能的数据管理层:根据活跃度、成本和性能,将数据迁移至最适宜的位置 高度灵活:兼容任何存储架构、介质或协议 全生命周期管理:覆盖数据创建、归档直至生命周期结束的全过程 安全保障:提供网络安全防护,抵御各种威胁和风险 AI友好:为AI计划和海量相关数据提供理想支持
AI的崛起及其引发的挑战
AI如今已无处不在,尤其是生成式AI(GenAI)。例如,ChatGPT在推出不到一周的时间内便迅速吸引了百万用户,目前全球用户数已接近2亿,其中约有一半的用户每周至少访问一次,用户群体覆盖了92%的财富500强企业。在过去的十年中,AI领域的初创公司已经累计获得了近五千亿美元的投资。
AI与资源消耗
随着AI应用的普及,其对计算、网络和存储资源的需求日益增长,能源消耗同样不容忽视。据研究,对大型语言模型(LLM)如ChatGPT进行一次查询所产生的碳排放量是Google搜索的100倍。此外,LLM的训练过程可能需要消耗高达10千兆瓦时(GWh)的电力。除了Google、Azure和AWS等科技巨头外,许多公司、政府和组织也在积极开发自己的AI模型。根据Pure Storage的一份报告,88%采用AI的组织都经历了计算需求的显著增长,其中47%的组织在采用AI后计算需求翻倍甚至更多。74%的组织表示,AI的应用促使他们对IT基础设施进行了重大升级或彻底改造,其中网络、安全、存储和数据管理成为首要任务。
AI与延迟问题
延迟问题同样不容忽视。虽然基于云的生成式AI资源能够满足如ChatGPT等消费级服务的需求,但它们并不总是企业AI工作负载的最佳选择。那些寻求通过云服务来支持AI和高性能计算(HPC)工作负载的组织可能会失去对存储资源位置的控制。因此,许多组织选择在本地开发LLM。LLM需要访问大量且易于访问的数据存储资源,以确保所需的性能,这通常需要在本地或私有云环境中实现。
一些组织最初尝试使用高性能存储系统来托管所有AI数据,但这种做法在资本支出、电力消耗和冷却需求方面很快变得成本高昂。那么,组织应如何以成本效益高且可持续的方式为AI和生成式AI应用提供长期甚至数十年的数据访问能力呢?主动归档解决方案能够应对企业AI在存储容量、数据管理和可持续性方面所面临的挑战。
历史数据:这些数据用于过去的项目或分析,目前已不再被频繁使用或用于训练。可能包括已被新数据或更新数据所替代的旧版本数据。 长期合规数据:这类数据用于参考或满足合规要求,但并不参与持续的AI任务。可能包括为遵守法规、法律要求或进行长期分析而收集的数据。 实验数据:于实验或初步研究的数据,不属于核心工作流程。这些数据集可能在实验阶段结束后作为参考保留,但不再被频繁访问。 未使用或被拒绝的数据:因项目需求变化、数据质量问题或其他原因而被收集,但从未在AI模型或分析中使用的数据。 合成数据:为测试、基准测试或研究目的而生成的数据,这些数据不涉及生产流程。
由于这些数据的访问或使用频率相对较低,与需要定期更新和频繁使用的活动数据集相比,它们通常被视作冷数据。在主动归档策略中有效管理这些冷数据对于优化存储资源至关重要,同时也确保了在必要时能够提取出有价值的信息。
什么是主动归档?
主动归档技术解决了传统物理和数字归档方法的不足。在主动归档中,信息始终保持在线状态,易于访问,支持快速检索与分析。此外,主动归档还具备智能数据管理和存储分层的能力,相较于传统归档系统,它更加用户友好。
AI对归档的影响及主动归档的重要性
传统上,归档被看作是数据的存储仓库,仅在偶尔需要时才会被访问,尽管这些数据在未来可能具有重要价值。随着现代AI技术的发展,这一观念已经发生了变化。几乎所有的企业数据都可能对AI引擎具有潜在价值。因此,许多企业开始将数据集中存储在归档系统中,以便AI和生成式AI工具能够访问。通过主动归档,大量数据可以以成本效益高、能源消耗低的方式存储,同时保持数据在网络上的即时可用性。数十年的归档数据可以作为大型语言模型(LLM)或其他机器学习(ML)或深度学习(DL)算法分析的一部分。
智能数据管理层
智能数据管理软件是主动归档的核心。该软件能够根据用户定义的策略自动将数据移动到最合适的位置,以满足成本、性能和工作负载优先级的需求。高价值且频繁访问的数据可以保留在内存中,而其他数据则可以存储在SSD、较低层级的磁盘、磁带或基于云的主动归档中。这样,AI应用就能够无延迟地挖掘所有这些数据,无论它们存储在何处。
通过使用元数据和全局命名空间等技术,主动归档的数据管理层确保了数据在任何存储平台或介质上都是可访问、可搜索和可检索的。智能数据管理软件在后台运行,不会影响终端用户的访问体验。
自动将数据分层至成本较低、环保的长期存储,或根据需要将其调回性能存储 自动化数据管理流程,包括: 应用数据保护和安全策略 数据清理 异常情况警报 调查和分析企业数据环境 发现IT管理员未曾注意到的数据 通过图表、图形和仪表盘等可视化工具呈现组织数据,以支持更好的决策制定 简化对大量、不断增长的数据进行监督和管理所需的技能 为AI应用提供对大量数据的访问
主动归档模型对组织的存储协议、介质或架构是中立的。与单一供应商解决方案不同,主动归档模型包括了来自不同供应商的、采用不同技术的集成产品和服务系统。
主动归档的优势
快速访问大量数据
AI应用需要迅速获取数据。消费级应用处理来自互联网的数十亿数据点,以回应查询和提供最新内容。然而,这一过程可能存在误差,有时得出的答案在事实依据上可能有限。因此,企业倾向于将AI应用指向更专注的数据集,这些数据集通常位于本地或私有云中。例如,如果一家公司多年来积累了PB级别的文档、PDF和视频,它可能希望将最近的数据即时提供给AI应用,同时将其余数据在主动归档中快速访问。
AI和商业智能:组织可以分析最新和历史数据,洞察趋势和模式。将数据转化为价值,最终将存储成本转化为竞争优势。 法律合规:持续访问确保法律团队能够从主动归档存储中搜索和检索数据,以应对诉讼。 释放IT资源:提供对非活动数据的在线访问,使用户能够在无需IT干预的情况下检索这些文件。自助访问节省了宝贵的资源。
降低存储总拥有成本(TCO)
降低云存储或主存储容量需求 降低带宽费用 降低能源成本
在AI驱动的数据爆炸性增长时代,主动归档解决方案比以往任何时候都更加必要。大多数增长来自视频、音频、图像、演示文稿、电子邮件和文档等非结构化数据。在许多情况下,数据创建30天后被访问的可能性显著下降;100天后,访问可能性降至1%以下。将非活动数据保留在主性能存储上可能既低效又成本高昂。
通过智能数据管理软件,主动归档将非活动数据迁移到低成本存储中。在某些情况下,较冷的数据将迁移回较温暖的存储,如HDD或SSD。在其他情况下,策略可能规定当数据冷却到足够程度时,文件可以迁移到更具成本效益的存储,如经济型磁盘、磁带或Cerabyte等新兴技术中的长期陶瓷玻璃。一些组织可能通过立即将数据迁移到归档型存储或低成本云资源中受益。例如,医疗行业中的医学图像可能会立即归档,但缓存副本至少保留在本地存储30天。
通过将非活动数据移出主存储,IT架构可以通过释放高性能存储空间来支持最活跃的数据集。定期释放主存储空间可以减少额外硬件采购的需求。数据整合也通过降低劳动力成本、许可费用和能源成本开辟了节省成本的可能性。主存储的备份成本也因备份所需时间和能源减少而受益。
通过数据管理软件提供的分析可以帮助IT决策者了解组织如何以及为何使用数据。这种理解反过来会影响管理员如何优化数据以节省成本。通过趋势分析,数据智能帮助IT领导者规划和预算存储增长。
法律合规优势
法律团队利用主动归档在多个方面节省成本。大多数公司必须遵守法规要求,以特定方式存储数据一段时间。公司使用主动归档以遵守这些数据安全要求,并避免因不合规产生的法律费用。此外,由于AI应用有时会生成可疑甚至虚假的信息,法律上需要长期保存数据以回应可能在未来几年内提出的传票。
增强的数据安全
对大多数全球组织而言,网络攻击的威胁始终是一个持续的担忧。在过去几年里,勒索软件一直是首要的安全问题。一次成功的勒索软件攻击可能导致数据丢失、业务中断、收入损失、罚款、商誉受损和法律费用。加起来,勒索软件攻击后的业务恢复平均总费用为455万美元。
主动归档可以提供广泛的安全功能和网络弹性能力,以保护数据免受当今企业和机构面临的网络威胁。
加密 多因素认证 访问控制列表(ACLs) 基于角色的访问控制(RBACs) 零信任安全模型
由于归档数据通常是静态和不变的,管理员可以使用WORM(只写一次,多次读取)或仅查看模式功能,以防止数据被删除或覆盖,并保障数据的完整性、可用性和机密性。
稳健的数据保护/备份
随着数据管理软件使组织能够将非活动数据迁移到主动归档介质上,主存储的恶意软件感染表面积减少。诸如磁带等介质技术,具有易于部署的气隙防护功能,IT人员可以实现实际的隔离,防止未经授权的电子访问。
保持至少三(3)份数据副本,其中主归档文件算作其中之一。 将两(2)份副本存储在不同的介质上(例如,磁带或HDD)。 确保至少一(1)份副本存储在异地。 将至少一(1)份副本存储在离线状态。 验证副本无错误或病毒感染。 定期测试恢复功能。
虽然组织应将网络安全软件作为抵御恶意软件的第一道防线,但应假设随时可能发生成功攻击。随着数据量的急剧增长,攻击面扩大,这些能力和实践确保了组织的数据资产保持安全、受保护和可恢复。
AI安全挑战
AI也带来了特定的安全挑战。基于云的AI解决方案可能会将企业数据暴露给网络犯罪分子。一些由生成性AI(GenAI)生成的内容可能会抄袭现有内容或知识产权(IP)。生成性AI的回答有时可能误导或虚假。此外,如果黑客侵入了AI引擎,组织的数据和系统可能面临攻击。因此,内部部署的大型语言模型(LLM)正日益被采纳,因为它们提供了一种遏制威胁和防止不准确数据使用的方式。如果这些数据的副本存储在离线状态,组织显著降低了数据丢失的可能性。
AI在医疗行业中的主动归档应用
医疗行业的决策者们已经意识到,主动归档解决方案对于平衡快速数据访问需求、长期数据保存、合规性、成本效益以及对潜在中断的韧性至关重要。随着医疗数据量的不断增加,采用主动归档策略以适应这些变化的需求也日益迫切。
除了主动归档,AI技术在医疗行业的多个方面产生了深远的影响:
数据管理与临床决策支持:从结构化数据中提取的有价值信息可用于改善患者护理,早期识别疾病,并提供对治疗路径的深入洞察。有效管理和分析大量的电子健康记录(EHRs)和归档中的医疗数据,使医疗机构能够全面了解患者状况,并提供连续性护理。通过从结构化数据(如实验室结果和生命体征)和非结构化数据(如医生笔记和影像报告)中提取见解,医疗提供者可以采用数据驱动的方法做出更优的护理决策。利用算法分析患者数据,可以提供临床决策支持,将患者数据与最佳实践和医学指南进行对比,帮助医疗专业人员更准确地诊断疾病、选择合适的治疗方案,并改善对患者预后的预测。 自然语言处理(NLP):利用结构化和非结构化数据的能力,可以提供比仅使用结构化数据更全面的患者状况和需求视图。医疗机构正在使用新的NLP工具从医疗记录中的非结构化文本中提取信息,提高编码、账单、临床文档处理和研究工作的准确性和效率。 个性化医疗:别模式并预测患者对治疗的反应正在改变医疗提供者提供护理和做出护理决策的方式。利用AI的医疗提供者可以分析患者数据以识别模式,并预测个体患者对治疗的反应,推动个性化医疗方法的发展,这种方法根据患者的独特特征和病史量身定制。 影像和诊断解释:AI算法在解释医学影像(如X光片、MRI、病理切片)方面的准确性与人类专家相当或甚至超越,医疗提供者和医疗机构越来越多地采用AI算法。这有助于放射科医生和病理学家更早、更准确地诊断疾病,使患者能够及时接受治疗,并获得更好的治疗效果。 健康监测与预测分析:医疗机构正在利用AI实时监测来自可穿戴设备和其他来源的患者数据,检测可能指示健康问题的趋势或异常。随着远程医疗的发展,这一信息变得越来越重要,使医疗提供者能够使用预测分析更好地预测疾病进展或识别特定疾病风险的患者。 行政效率:医疗机构正在利用AI简化与医疗记录相关的行政任务,如预约安排、工作流程自动化和更安全地管理患者数据。这使医疗提供者能够更多地关注患者护理,而不是处理各种行政事务。 研究与药物发现:研究人员现在可以使用AI分析大量数据集,加速生物医学研究。识别潜在药物靶点、预测药物相互作用和优化临床试验的能力有助于推进对疾病标志物的理解,开发新疗法,并改进最佳治疗实践。
随着医疗机构继续利用不断发展的AI技术和对大数据集的主动归档,医疗提供者可以进一步改善患者结果和医疗领域的操作效率。
存储的可持续性
随着人工智能(AI)技术的蓬勃发展,数据中心正变得规模更大、密度更高且能耗更大。根据Omdia的研究,数据中心的平均面积为137,000平方英尺,而云服务提供商的平均面积则为205,000平方英尺。根据AFCOM的《2024年数据中心现状报告》,机架密度从2021年的7 kW增加到今天的12 kW。有25%的数据中心报告称其机架功率超过20 kW,有的甚至超过50 kW。因此,该行业已经占到了美国总电力消耗的近2%。随着更多图形处理单元(GPU)的加入,以满足高性能计算(HPC)、生成式AI及其他高需求应用的需求,这一趋势可能会进一步加速。AI引擎对电力的持续需求已成为一个严重的问题和环境关切。
在主动归档中存储冷数据和不常访问的数据,在功耗和CO2e排放方面具有显著差异。根据Brad Johns Consulting的研究,在维护100 PB数据的十年中,将40%的数据保存在HDD系统中,而将60%迁移到自动化数据磁带库系统,可以实现CO2e排放减少58%,电子废弃物减少53%。
AI在视频监控中的主动归档应用
主动归档正在视频监控领域中被用于收集、保留和访问大量录制视频。AI也被应用于大型视频监控数据集中,以加速人脸识别、发现趋势、标记危险并触发警报。对于应用AI进行长期视频保留的组织或摄像头数量过多以至于人工难以监控的情况,主动归档是最实用的视频监控存储解决方案。
管理:主动归档的智能数据管理功能允许操作员根据最合适的存储层(HDD或LTO磁带)对视频文件进行分层,同时保持所有数据在线并可供AI应用访问。 成本:低成本的二级存储层解决了组织在长时间内保留大量视频监控录像所面临的可扩展性问题,并且其能耗远低于主存储。 安全:主动归档可以通过其数据管理软件自动应用安全政策,以确保合规性和保护。 访问:集成到视频管理软件(VMS)系统中的分层功能使视频操作员或安全技术人员可以轻松搜索和回放来自任何存储层的所有录制视频。 分析:AI能力与主动归档技术的结合可以从视频监控内容中释放出更多价值。AI工具可以搜索在主动归档中存储的数月甚至数年的视频数据,从中提取曾经被认为几乎不可能获得的见解。
总结:AI时代的主动归档解决方案
在接下来的几年中,企业对存储容量的需求预计将迅速增长。AI技术的快速发展凸显了从边缘到核心数据中心再到云的数据管理的重要性。高效地管理海量数据是AI取得成功的关键。为了实现AI计划的生产性和有益成果,必须能够处理、分析、关联并从大量信息中得出结论。当数据量达到数PB级别时,主动归档能够为AI应用提供适当的访问速度、性能、能源效率和经济效益的组合。
AI基础设施的建设必须基于周密规划的数据存储和工作流程。否则,不周详的数据管理计划可能会对成本、安全性、网络弹性、法律合规性、客户体验、决策制定、能源消耗甚至品牌声誉产生负面影响。在AI时代,有效的数据管理成为组织实现有效数字化转型的关键能力之一,这正是主动归档解决方案为现代AI驱动的企业带来的益处。
分析机构确认主动归档在AI支持中的价值
72%的受访者将AI/ML相关分析视为其主动归档的主要用例。 82%的受访者表示,AI/ML推动了对长期保留更多数据的需求。 88%的受访者认为,长期存储对于其AI/ML计划的成功至关重要。 82%的受访者认为,更具可扩展性和能源效率的数据存储对于AI/ML计划的成功至关重要。 主动归档的年增长率平均为30%。 数据在主动归档中的保留时间平均为11年。
ESG的报告指出:“几乎所有受访者都认同主动归档提高了检索速度,其中大多数(71%)受访者认为改进是显著的。”
参考资料:Active Archive Alliance. (2024). AAA Annual Report 2024. https://activearchive.com/wp-content/uploads/2024/08/AAA-Annual-Report-2024-FINAL.pdf
---【本文完】---
近期受欢迎的文章:
更多交流,可加本人微信
(请附中文姓名/公司/关注领域)





