暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

「IBM」周立旸:混合云环境下 实现数据湖的现代化丨Distributed Cloud

分布式云 2021-12-29
369




2021

全球分布式云大会

Distributed  Cloud





12月15日,以“引领分布式云变革 助力湾区数字经济”为主题的全球分布式云大会在深圳隆重召开,本届大会由全球分布式云联盟、深圳科技交流服务中心、深圳市通信学会、众视Tech联合主办。组委会携手阿里云、腾讯云、Google Cloud、华为云、蚂蚁集团、浪潮云、金山云等海内外顶尖云计算团队和分布式云先锋企业,为粤港澳大湾区数字经济发展注入分布式云动力,更将中国分布式云计算发展推上全新高度!


在16日下午举办的分布式安全存储论坛上,IBM大中华区存储产品经理周立旸分享了IBM在分布式存储以及解决方案方面的经验。



在数字化转型的时代,数据就是数字化的经验,是能够帮助企业提升竞争力,创造更多的价值的关键资产。在数字化进程中,企业会积累和存储更多的数据。对比权威调研机构的预测结果和实际数据,实际产生的数据量都超过了预期,这也从另外一个方面说明了企业数据越来越成为关键资产,需要更加有效的管理和使用。


2021年,分布式云成为云计算领域关注的热点。经过一年时间的探索与沉淀,分布式云开始从理论走向实践,诸多云计算头部企业夯实分布式基础设施建设、优化分布式资源调度、开发分布式应用,为构建分布式云打下了坚实的基础。


存算分离,简化和整合数据湖


为了处理越来越多的存储数据,很多企业采用分布式计算、分布式存储来解决海量数据的问题,但与此同时,分布式技术也为企业用户带来了影响——数据的存储管理和使用越来越复杂。很多企业内部数字化IT建设过程中,随着应用增加,或多或少都会存在数据烟囱或者数据孤岛。


近年来,随着混合云技术的诞生,不少企业的应用会在私有云、公有云上进行,也会产生和使用大量的数据,所以企业存储和管理数据复杂性日渐加剧,很多的企业面临着如何有效管理和使用日趋分散、分布数据的挑战。



随着越来越多的应用向分布式发展,需要处理和管理的数据从原先的结构化数据更多的变成非结构化数据,也出现了大数据、Hadoop这样的数据帮助企业使用和管理非结构化的数据,所以很多企业建立了自己的数据湖。


如今,更多企业把云内云外的数据湖变成统一整合的数据云,因此需要在混合云架构里形成逻辑整合的数据云,帮助局企业对数据进行高效的存储、管理和使用。


更快——提升应用效率


形成数据孤岛的关键点在于应用和数据是耦合的,所以应用层面越来越向云化,向分布式架构迈进,很多数据也必然走上存算分离架构。面临越来越多的数据,相信任何企业也无法在同样一套架构或者存储上满足所有的数据应用的需求。


根据IBM在全球IT行业的调查统计,企业每年需要管理和存储的数据的增长平均值为20%+,但是企业年均IT支出增长只有7%。一方面要存储管理使用越来越多的数据,一方面面临着预算的压力,而解决这一问题的办法就是采用分层存储的方式。


尽管数据量在激增,但不是所有的数据都需要实时被使用、被分析的,根据法律规定,很多数据可能需要保留十年、二十年甚至更长时间,但这数据中可能80%—90%都是不需要被频繁访问的数据,对于所企业来讲,形成分层的数据云,对分析型的应用、人工智能AI可以提供更快的速度,需要长期安全保留的数据可以用更有性价比、更具有成本优势的方式来保存。


采用这一解决方案的好处在于,首先可以提高处理分析使用信息数据的效率,在AI训练的过程中需要对数据进行海量的分析,大多数AI应用都需要几十GB甚至是TB级的数据访问带宽,对文件的IOPS每秒钟读取或者写入也可能到百万级或者更高,在这个层面可以针对应用做优化,如为了提高能力分析处理数据,很多企业采用全新的GDS (GPUDirect Storage) 接口,GPU不需要把外部数据读到所在服务器的内存,而直接访问外部数据,大大缩短访问时间延迟并提高数据访问带宽。


IBM分布式软件存储技术,通过对GDS的支持测试,两台两U的基于NVMe的分布式的文件存储就可以为GPU服务器提供超过191GB/S的数据访问的带宽,满足分析型应用、AI应用对数据效能的要求。针对企业应用有高效的数据分层方案,方便数据摄取。


通过高效的数据使用,可以让需要被分析使用的数据集中存放在高速数据存储里面,而其他大量数据存放在更具成本优势的对象存储或云端里,通过这种方式既满足了成本要求,又满足了应用效率的要求。


周立旸介绍了该技术在自动驾驶平台的应用实例。他说,自动驾驶的平台自动驾驶平台不仅需要对车载雷达数据分析演算,还需要对视频数据、电子数据等进行大量的计算分析、训练,才能够开发出一套完备的自动驾驶的系统。


为了满足自动驾驶应用开发对于数据访问效率的诉求——满足超过200GB/S的数据写入带宽的存储,并保证高成本的GPU资源不被浪费,IBM通过提供上一代ESS3000就可以满足数据访问的效率。客户方面,上线该系统后,每个月能够完成训练的数增长了14倍,大幅提升了智慧型分析型应用的效率。


更简单——降低管理和使用数据的复杂性


采用分层数据云第二个好处是简化数据的管理和使用。很多企业无法只采用一种架构的存储或只采用一种类型的存储来存放管理所有的数据,很多的企业的数据本身是分布的,会存放在不同的地点、不同的架构的存储里面;与此同时,应用方需要有一个高效的机制能够用一个逻辑统一的视图来访问这些分散的数据。


IBM的数据存储的关键技术“全局数据访问”,不管数据在云端还是在数据中心,不管是在本地还是异地,都可以用同一的访问路径或者同样的命名空间对不同地点的数据实现统一的访问。通过缓存、同步满足所有数据的效率和一致性的要求,把所有的复杂性通过软件定义的方式在平台内部实现。


对于外部用户,可以像使用一套逻辑统一的数据池一样使用这一系统。这套系统还需要有非常强大的多协议支持能力,现在随着应用的增长,可能出现文件型数据访问、对象型访问、大数据访问的需求,越来越多的需求从容器内部直接来访问数据,通过多协议访问的数据,可以使得同一个数据云能够支持现在的未来不同的应用。


随之,周立旸介绍了在医疗领域的实践案例。该公司需要保留大量的医疗影像的数据,为了业务的需求并为未来做产品研发保留数据。一方面它是效率型的应用,需要对医疗影像的数据通过AI训练构建模型,在设备里面作为预处理的模块增加本身的产品竞争力。


这个企业有多个不同站点,它在上海、武汉等地都有数据中心,要实现统一的高效数据访问,数据需要保留非常长的时间。通过构建一个架构,首先可以为GPU训练应用,对传统的文件高档的应用通过全局命名空间实现统一的数据访问;其次在后台可以根据数据经济型的要求,大大降低需要长期保存的数据存储成本,帮助它在有限IT的预算下能够存储越来越多的数据。


更便宜——用最优的成本扩展存储能力


构建数据云对于用户的第三个好处,能够帮助客户节约支出,用以扩张存储能力。根据法律法规,一些企业需要长期保留数据满足合规性要求,但是这些数据并不一定每天都要频繁访问的,这时可以利用不同的介质存储。


IBM也是磁带技术的发展者,2020年发布了可以在手掌大小的磁带里不压缩存放580TB的技术,在目前可以选择的介质中,磁带保留时间更长、更安全、成本更低。通过软件定义磁带的方式构建分层存储系统,既可以满足应用层的速率要求,又可以满足后台安全性成本的要求。企业可以根据自身预算、应用特点来选择在前端和后端的投入和扩展。


案例方面,百度智能云的冷数据处理,有几千TB的百度的云存储是在磁带里,它可以把磁带像磁盘一样来使用,通过全局命名空间可以把冷数据自动归档到磁带的系统里。这套系统上线后,百度内部的总体成本评估,和以前的磁盘相比降低了84%,功耗降低了90%。对绿色节能有要求的双碳数据中心,利用分层的方式,不仅可以降低成本,也能更好地满足绿色节能的要求。


全球大型公有云几乎都采用了IBM的软件定义磁带的技术,对于一般企业来说,当数据达到PB级规模时,IBM提供的上述方案是长期保留数据、降低成本的有效手段。


IBM存储系列产品


从产品层面看,IBM提供了丰富的存储产品,经过简化,现在IBM的存储产品分为三条产品线,第一条是主存储(块存储);第二条是数据与AI存储;第三条是数据保护现代化。


数据存储部份主要包括文件、对象和元数据管理三个产品,既提供了软件定义的方案,也提供软硬一体的一体机方案。


Spectrum Scale


Spectrum Scale有二十余年的发展历史,此前,IBM在全世界最快的计算机、人工智能系统后台存储都采用了这一技术。Spectrum Scale可以帮助应用加速,让用户以最快的速度访问和整合数据。另外,它可以通过策略的方式自动在不同架构、不同地点实现数据的调度,通过这一方式实现数据云的架构。


Elastic Storage System(ESS)


ESS的最大特性就是故障不影响性能,现在很多数据保护的手段在发生故障、节点损坏、磁盘损坏时,数据不一定丢失,但应用访问性能一定会受到影响,ESS尽可能把节点、磁盘的故障对访问性能的要求降低到最低,不仅数据不会丢,在部份设备故障的情况下仍然能够保持几十级TB/S的访问能力。


ESS有两种模块,一个是全闪存模式,可以实现高速文件数据存储;另一种基于大容量磁盘的模块,每个模块可以提供55GB/S和超过15PB的容量,用户可以根据容量性能组合来构建自己的数据存储。


IBM Cloud Object Storage


IBM和其他厂商最大的不同点是没有采用统一的数据引擎,而是使用经过优化的不同文件和对象存储引擎。对象存储引擎方面,IBM的云对象存储是源自IBM收购的前对象存储排名第一企业Cleversafe,IBM收购后将其改名为IBM Cloud Object Storage,该产品被用于全球各类大规模、高性能和高可用的场景,IBM非常多的PB级用户也采用了这一技术。


COS的三大特点,第一是可变纠删码,一个可变纠删码就可以满足对数据存储在效率、性能、容量或者可用性的需求。


第二个特点是多站点多活,无需多份数据复制就能实现多点存储,比如三个站点只需要一份数据,占用不到2倍的裸存储的容量,就可以实现任意一个站点宕机的情况下数据正常访问。


第三个特点是简单易用,一个管理员就可以管理数10个PB或者更大使用场景的产品。


IBM Spectrum Discover


IBM Spectrum Discover是IBM的元数据管理平台,在上层管理面临越来越多的数据时,以前可能用命名规范方式,再之后有内容管理系统,通过在数据库里面建立索引管理数据。当数据达到数亿级,唯一能够有效管理的手段就是元数据管理,IBM自有的元数据管理平台的软件——Spectrum Discover,可以管理IBM所有文件和对象存储,也可以通过开放的NFS和S3标准支持其他厂商的文件或对象存储。Spectrum Discover是可以实现更多数据洞察的元数据管理平台,可以对数十亿甚至更多的数据进高效定位、定制报表,或开发自动化流程管理能力。


周立旸介绍说,IBM通过对上述产品的组合,根据数据量、性能、地点等要求,构建属于每个企业的高效分布式数据云,帮助企业从数据中获得更高价值。


目前来全球各行各业都有采用IBM相关解决方案的案例,在国内有12个行业的具体项目落地。IBM非常希望今后有机会为国内各行各业能够提供相关的产品和服务。


演讲最后,周立旸表示,Gartner发布的分布式文件和对象存储报告显示,在过去多年中,IBM一直处于分布式文件和对象存储领导者象限,属于单项排名第一的分布式文件和对象存储技术,IBM希望能够以些技术为客户未来构建自己的数据平台提供更好的参考。




演讲

姓名|吴昊

电话|185 1611 6966

赞助、参展

姓名|林婷婷

电话|180 1781 9081

赞助、参展、听众

姓名|朱艳萍

电话|138 1644 2176


文章转载自分布式云,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论