暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

东方国信、XSKY 星辰天合、英特尔联合推出云原生大数据存算分离解决方案

601

在人工智能 (AI)、5G、边缘计算等数字化创新技术的驱动下,数据正在呈现爆发式增长的趋势。为挖掘海量数据背后的价值,大数据交互式探索业务负载使用需求急剧增加。在此背景下,传统大数据存储与计算一体化物理部署架构逐渐暴露出运维管理难、资源竞争、存储成本高、资源弹性不足、资源利用率低等问题,无法充分满足用户的大数据业务需求。


为了助力用户释放大数据价值,东方国信、XSKY 星辰天合、英特尔三方联合推出基于云原生大数据存算分离的解决方案。该解决方案融合了东方国信企业版大数据平台容器化计算层服务 BCDP (BEH Cloud-Native Data Platform)、XSKY 星辰天合对象存储 XEOS(XSKY Enterprise Object Storage)、XSKY 星辰天合分布式文件存储服务 XGFS (XSKY Global File System),以及英特尔® 至强® 可扩展处理器、英特尔® 以太网融合网络适配器等硬件,并实现了软硬件的协同优化,满足了用户在广泛场景下对于大数据系统性能、可用性、敏捷性、扩展性等方面的要求。



挑战


存储和计算一体化架构难以满足当前大数据业务发展要求

了从不同类型的海量数据中挖掘数据价值,大数据系统已经成为企业推进数字化转型的重要方式,随之而来的是大数据系统存储、管理数据的快速增长。报告显示:大数据平台的数据存储量在 2019~2024 年以 26%的年复合增长率 (CAGR) 高速增长。在这些新增数据中,半结构化数据、非结构化数据的增长尤为明显,这加大了企业在数据存储和计算上进行更大规模投资的压力。


为了降低数据在计算节点、存储节点之间迁移所带来的网络带宽消耗,提高单机吞吐量,同时降低集群设计的复杂度,以 Hadoop 为代表的大数据系统采用了存储和计算一体化的处理方式。这种方式在相当一段时间内满足了用户在大数据系统构建方面的迫切需求。但是随着数据的爆炸式增长,以及大数据集群规模的快速增长,存储与计算一体化的方式面临着巨大挑战。


这一挑战突出体现在扩展敏捷性上。在存储和计算一体化架构中,当集群计算资源或者存储资源不足时,需要将存储和计算按照 1:1 的比例以节点的方式扩容。这种方式对于内存计算型引擎等场景不够友好,用户通常只希望单独扩容计算或存储资源,1:1 的扩容方式可能会导致存储/计算资源浪费。


除此之外,传统大数据存储平台还面临如下挑战



Hadoop 分布式文件系统 (HDFS) 在成本、扩展性、资源弹性等方面存在瓶颈:HDFS 从设计之初即采用多副本方式进行存储,随着集群数据量的增长,多副本存储带来的成本开销越来越大。HDFS 在交互式探索即时查询场景中并不能很好感知、利用 SSD 所提供的高性能,而且系统扩展受限于单个 Namenode 服务内存,也难以实现企业数据中心多个系统之间的互联互通。




资源争抢、利用率较多且弹性不足:传统大数据平台通常采用基于 Yarn 的动态资源管理,但 Yarn 无法做到磁盘 IO 和网络 IO 的隔离,容易带来资源争抢的问题。传统大数据平台离线作业和在线作业往往分属不同的集群,在线业务、流式作业具有明显的波峰波谷特性,波谷时段可能会出现大量资源的浪费。此外,传统物理大数据平台在扩展资源时,通常需要资源申请、依赖软件安装、服务部署等一系列步骤,耗费大量的时间。




集群运维复杂:传统物理大数据集群部署复杂,缺乏企业级的运维手段,集群的运维依赖于运维人员的技术与经验。随着大数据业务复杂度的提升,如何应对异地备份等场景带来的挑战,保障平台的运行效率与可用性,降低运维成本,成为用户普遍关注的问题。


解决方案


东方国信、XSKY 星辰天合、英特尔云原生大数据存算分离联合方案

为了解决传统物理大数据平台架构的痛点,东方国信、XSKY 星辰天合与英特尔联合推出了云原生大数据存算分离架构方案。在该架构中,大数据存储分离部署架构主要使用独立的对象存储服务或者分布式文件存储服务存储数据,计算服务运行于容器内,计算任务通过网络的方式来访问位于远端的存储服务,从而实现数据计算和数据分析的工作。存算分离较好地解决了存算一体化带来的存储/计算资源浪费问题,实现了更敏捷的资源扩展。


该方案的架构图如图 1 所示。在基础设施层,第二代英特尔® 至强® 可扩展处理器、英特尔® 以太网融合网络适配器等高性能硬件提供了基础的计算、存储与网络能力。方案的存储层采用了 XSKY 星辰天合对象存储 XEOS、分布式文件存储服务 XGFS,计算层和存储层服务通过 HDFS Connector 互连;方案的容器-计算层基于东方国信 BCDP 构建,提供多租户可控的一站式企业级大数据集群云服务。


图 1. 东方国信、XSKY 星辰天合、英特尔云原生大数据存算分离联合方案架构



东方国信、XSKY 星辰天合、英特尔云原生大数据存算分离联合解决方案包括如下重要组件


● 英特尔® 至强® 可扩展处理器:英特尔® 至强® 可扩展处理器提供了业界领先、经工作负载优化的平台,有助于加快多云、智能边缘和后端等数据的变革性影响。该处理器在计算、网络、存储和持久内存中带来了创新和硬件增强的虚拟化特性,可支持实现经济高效、灵活且可扩展的多云架构。



● 英特尔® 以太网融合网络适配器:英特尔® 以太网融合网络适配器具有专业的网络性能,可支持虚拟机设备队列 (VMDq)、单根 I/O 虚拟化 (SR-IOV) 等各种高级功能,并提供了全面的兼容性、广泛的产品选择、简便的安装和可靠性、全球发售以及世界级的支持。



 BCDP:东方国信在 Kubernetes 上部署和管理 Hadoop 生态组件系统的服务,一键即可部署集群。BCDP 提供多租户完全可控的一站式企业级大数据集群云服务,完全兼容开源接口,为客户提供高性能、低成本、灵活易用的全栈大数据平台,轻松运行 Spark、Flink、Openlookeng、Kyuubi 等开源大数据组件,帮助企业快速构建海量数据信息处理系统,并通过对海量信息数据实时与非实时的分析挖掘,发现全新价值点和企业商机。



● XGFS:XSKY 星辰天合新一代分布式文件存储系统 XGFS 基于灵活的 SDS 架构,可提供 POSIX、NFS、SMB/CIFS、FTP、S3、HDFS 多协议互通,和丰富的企业级文件存储功能服务,不仅可以用于企业的文件共享,备份归档通用场景,也可以应用于视频监控、媒资管理、大数据和 HPDA 等高性能、大带宽、大容量的场景。XGFS 创新利用最新的多核 CPU、大容量和高性能 NVMe SSD 、高速网卡技术,可以高效保存和处理百亿 PB 级文件规模的数据,具有极高的性价比。



● XEOS:XSKY 星辰天合通过全新的存储技术手段,基于通用的服务器构建了一个无限扩容、持续在线、可跨地域访问、智能分层流动的高性价比对象存储架构体系,在保证了数据高安全性的同时,打破存储规模、地域限制及存储厂商的壁垒,降低企业 IT 建设的整体投入,满足了新业务形态的多源化存储需求。



面向分布式文件存储与对象存储应用场景,该解决方案分别提供了两种云原生大数据部署模式。其中,基于分布式文件存储的云原生大数据解决方案主要适用业务包括大数据交互式查询等即时性的、对响应和性能要求较高的场景,可以和大数据计算层无缝对接,计算层用户任务程序零改造。基于对象存储的云原生大数据解决方案主要适用业务包括大数据批处理场景、离线任务、冷数据存储、备份等。



软硬件联合优化,实现性能与成本的卓越平衡

为了加速云原生大数据存算分离联合方案的性能表现,东方国信、XSKY 星辰天合与英特尔进行了联合探索。除了采用英特尔® 至强® 可扩展处理器、英特尔® 以太网融合网络适配器等高性能硬件之外,还采用了如下优化手段:

●☞ 通过双 25Gb 网络化解网络瓶颈
存算分离架构主要性能瓶颈在于网络。联合方案采用了双 25Gb 英特尔® 以太网融合网络适配器,计算和存储服务间可以互相访问。同时,存储层 XGFS/XEOS 部署架构提供了存储集群网络(内部网络)和业务网络(外部网络),隔离了客户端数据流量以及集群内部流量,避免了流量之间的影响。

●☞ 纠删码优化
联合方案实现了存储层 XGFS/XEOS 纠删码数据冗余技术的高效读写,利用高性能 NVMe SSD 构建缓存分区,结合大容量 HDD 盘,以混合盘的形式组建纠删码存储池,给大数据文件访问带来出色性能体验。同时,混合盘模式的使用利于实现大数据业务应用的降本增效。

●☞ 存储层缓存优化
联合方案提供了存储层数据高效读缓存功能,内置多种读缓存机制,包括数据预读、目录预取和元数据缓存。依靠XSKY 星辰天合自研高效预读算法,大幅提升文件缓存读取的命中率。

●☞ 容器计算层 Pod 优化
除了内存计算外,较大开销来自 Shuffle 阶段,因为其中包含大量磁盘 I/O,序列化等操作。在 Kubernetes 集群中,Spark Driver 与 Executor 都会使用 Pod 内的目录来存储临时文件,联合方案使用 hostPath 的方式挂载 Driver 和 Executor 的存储卷,节点使用 NVMe SSD 磁盘,大大提高了 Shuffle 性能。


验证:多种场景下系统性能实现大幅提升

为了验证云原生大数据存算分离联合解决方案对比传统物理大数据方案的性能表现,三方进行了测试,测试配置如表 1 所示。本次测试采用了 6 台服务器节点,分别在不同冗余机制、批处理、交互式查询三种场景中进行了功能和性能测试。在测试过程中,同种测试用例/SQL 在不同部署模式资源参数保持一致,尽可能确保对比测试的公平性。
本次测试采用的计算组件与存储组件版本如表 2 所示。


不同冗余机制性能对比

本次测试使用 Spark DFSIO 测试用例读写 200GB 数据的方法,对 XSKY 星辰天合分布式文件存储 XGFS 与 HDFS 的 3 副本和 HDFS 纠删码机制的读写性能做了横向对比,测试数据如图 2、图 3 所示。XGFS 分布式文件纠删码 EC 4+2:1 读写性能最优,并且无论读性能还是写性能均已经超过传统 HDFS 的三副本机制,读性能是 HDFS-3 副本的 2.5 倍,写性能达到 3.4 倍。

图 2. 不同数据冗余机制的执行时长

图 3. 不同数据冗余机制的集群吞吐性能对比


批处理场景下性能对比

在批处理场景,测试使用 BCDP+XEOS 对象存储的存储与存算分离架构,容器化计算层组件使用 Spark。Apache Spark 作为一个开源的通用并行分布式计算框架在大数据领域十分重要,云原生 Spark 由传统的 Yarn 资源调度转换为 Kubernetes 资源调度。本次测试使用 Hibench 大数据基准测试工具,负载包括 Wordcount、Terasort、DFSIO 等,根据测试指标结果有效对比该部署架构与传统物理存算一体架构下的相关性能。


在此场景下,测试人员对比了存算一体的传统物理大数据方案与 BCDP+XEOS 对象存储的存算分离部署模式在运行 Spark 批测试用例时的性能。后者同时结合 XEOS 的 EC 纠删码机制,可以降低大数据的长期存储成本。


测试数据如图 4所示,BCDP+XEOS 对象存储的存算分离方案在大部分大数据跑批业务场景也可以达到物理化存算一体方案的性能,某些场景表现甚至更优,多个测试用例总时间对比传统物理大数据存算一体化架构有 17% 提升。相比物理化存算一体方案,使用 BCDP+XEOS 对象存储的存算分离方案,可获得更多可用存储空间,适用于存储海量数据,达到优化使用成本的目的。


图 4. Spark 测试用例执行时长对比


交互式查询场景下性能对比

在交互式查询场景,测试使用 BCDP+XGFS 分布式文件存储的存储与计算分离架构,容器化计算层组件使用 Kyuubi。Apache Kyuubi(Incubating)是一个 Thrift JDBC/ODBC 服务,计算层使用 Spark 引擎,支持多租户和分布式等特性,可以满足企业内诸如 ETL、BI 报表等多种大数据场景的应用。测试使用 TPC-DS 测试基准,选取之中代表性的 10 个 SQL 语句:Query26、Query27、Query32、Query42、Query48、Query53、Query55、Query68、Query76、Query82,可充分对比测试 Spark SQL 在该架构下与传统物理存算一体架构下的性能。
测试数据如图 5 所示,在测试的 10 个 SQL 中,BCDP+XGFS 分布式文件存储的表现均比传统存算一体架构平均执行时间短,性能更好,所有 SQL 执行总性能对比约有 21% 的提升。


图 5. Kyuubi(SparkSQL)测试 SQL 执行时长对比

测试数据证明,东方国信、XSKY 星辰天合、英特尔云原生大数据存算分离联合解决方案在多种场景下的功能均能够满足日常使用和开发需求,而且在性能、每容量成本等指标上均超过传统存算一体架构。


收益


助力用户在云原生环境下释放大数据潜能     


东方国信、XSKY 星辰天合、英特尔云原生大数据存算分离联合解决方案除了在功能、性能等方面有着卓越的表现,而且具备低成本、敏捷运维等优势,可以帮助用户充分释放大数据价值,助力业务增长。


高性能加速大数据业务处理

得益于高性能的硬件、云原生存算分离架构,以及软硬件协同优化,解决方案在批处理、交互式查询等场景下皆展现了强大的性能优势,有助于加速大数据业务处理、降低延迟,支撑更多创新型业务的发展。


高性价比,提升用户投资收益

解决方案实现了计算与存储逻辑单元分开,用户可根据业务负载将计算层和存储层按需单独扩缩容,互不影响。在大数据计算层,BCDP 将大数据计算层服务部署在容器中,借助容器使离线业务充分利用在线业务空闲时段的资源,并实现资源按需使用,提高资源利用率;在大数据存储层,分布式文件存储服务 XGFS 和对象存储服务 XEOS 均支持灵活高效的纠删码策略,在资源有限的情况下使得盘率与可靠性得到平衡,降低存储成本。


 简化运维,助力提升系统可用性

BCDP 利用容器技术可以一键式地、分钟级别地创建一个大数据计算层集群服务,并且支持快速启停和实时的扩缩容业务资源以满足生产需求,当面临业务的高峰期,只需要向 Kubernetes 申请容器资源,即能够以秒级别启动容器并提供算力,简化流程;存储服务 XEOS 和 XGFS 通过图形化用户控制台,帮助客户快速上手并使用存储服务功能,而且存储服务还支持分级告警、自助巡检、自我检测等功能,不仅简化了日常运维的复杂度,且有助于提前识别系统潜在隐患。



展望

本次东方国信、XSKY 星辰天合与英特尔的合作成功验证了云原生大数据存算分离解决方案相对于传统方案的优势,这有助于帮助用户高效处理异构计算、批流融合、数据湖、机器学习、内存计算等应用带来的海量数据,简化了大数据平台的建设和运维,同时通过存算分离在敏捷性等方面的优势降低了大数据平台扩展的成本。
未来,东方国信、XSKY 星辰天合与英特尔还将基于新一代英特尔® 至强® 可扩展处理器进行探索,利用处理器所提供的增强的内存功能、高级安全技术和内置工作负载加速等特性,进一步提升解决方案在性能方面的表现。同时,三方还将强化在存算分离、云原生存储等领域的合作,以推动大数据软件栈的创新,加速大数据价值的释放。

关于东方国信

北京东方国信科技股份有限公司成立于 1997 年,是一家专注于大数据、云计算等领域核心技术的高科技软件企业。经过 20 余年的发展,东方国信已形成横向跨行业、纵向全产业链的战略布局。打造了基于大数据、云计算、移动互联,全链条、全自主知识产权的技术研发体系,实现了大数据端到端全产业链的自主研发,并以丰富的大数据软件产品和解决方案服务于通信、金融、工业、政府、城市、农业、医疗、新零售等多个业务领域。

关于 XSKY 星辰天合

北京星辰天合科技股份有限公司(XSKY 星辰天合)是专注于软件定义基础设施 (Software Defined Infrastructure) 业务的高新技术企业,XSKY 星辰天合自成立以来注重科技创新,致力于以中国技术力量影响开放平台生态系统,创建自主可控的底层设施,以主流的、先进的技术和产品为客户创造价值,提供企业级分布式软件定义存储产品,帮助客户实现数据中心架构革新。

关于英特尔

英特尔(NASDAQ: INTC)作为行业引领者,创造改变世界的技术,推动全球进步并让生活丰富多彩。在摩尔定律的启迪下,我们不断致力于推进半导体设计与制造,帮助我们的客户应对最重大的挑战。通过将智能融入云、网络、边缘和各种计算设备,我们释放数据潜能,助力商业和社会变得更美好。


文章转载自东方国信大数据,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论