
在人工智能 (AI)、5G、边缘计算等数字化创新技术的驱动下,数据正在呈现爆发式增长的趋势。为挖掘海量数据背后的价值,大数据交互式探索业务负载使用需求急剧增加。在此背景下,传统大数据存储与计算一体化物理部署架构逐渐暴露出运维管理难、资源竞争、存储成本高、资源弹性不足、资源利用率低等问题,无法充分满足用户的大数据业务需求。
为了助力用户释放大数据价值,东方国信、XSKY 星辰天合、英特尔三方联合推出基于云原生大数据存算分离的解决方案。该解决方案融合了东方国信企业版大数据平台容器化计算层服务 BCDP (BEH Cloud-Native Data Platform)、XSKY 星辰天合对象存储 XEOS(XSKY Enterprise Object Storage)、XSKY 星辰天合分布式文件存储服务 XGFS (XSKY Global File System),以及英特尔® 至强® 可扩展处理器、英特尔® 以太网融合网络适配器等硬件,并实现了软硬件的协同优化,满足了用户在广泛场景下对于大数据系统性能、可用性、敏捷性、扩展性等方面的要求。
挑战
存储和计算一体化架构难以满足当前大数据业务发展要求
为了降低数据在计算节点、存储节点之间迁移所带来的网络带宽消耗,提高单机吞吐量,同时降低集群设计的复杂度,以 Hadoop 为代表的大数据系统采用了存储和计算一体化的处理方式。这种方式在相当一段时间内满足了用户在大数据系统构建方面的迫切需求。但是随着数据的爆炸式增长,以及大数据集群规模的快速增长,存储与计算一体化的方式面临着巨大挑战。
这一挑战突出体现在扩展敏捷性上。在存储和计算一体化架构中,当集群计算资源或者存储资源不足时,需要将存储和计算按照 1:1 的比例以节点的方式扩容。这种方式对于内存计算型引擎等场景不够友好,用户通常只希望单独扩容计算或存储资源,1:1 的扩容方式可能会导致存储/计算资源浪费。
除此之外,传统大数据存储平台还面临如下挑战:
资源争抢、利用率较多且弹性不足:传统大数据平台通常采用基于 Yarn 的动态资源管理,但 Yarn 无法做到磁盘 IO 和网络 IO 的隔离,容易带来资源争抢的问题。传统大数据平台离线作业和在线作业往往分属不同的集群,在线业务、流式作业具有明显的波峰波谷特性,波谷时段可能会出现大量资源的浪费。此外,传统物理大数据平台在扩展资源时,通常需要资源申请、依赖软件安装、服务部署等一系列步骤,耗费大量的时间。
集群运维复杂:传统物理大数据集群部署复杂,缺乏企业级的运维手段,集群的运维依赖于运维人员的技术与经验。随着大数据业务复杂度的提升,如何应对异地备份等场景带来的挑战,保障平台的运行效率与可用性,降低运维成本,成为用户普遍关注的问题。
解决方案
东方国信、XSKY 星辰天合、英特尔云原生大数据存算分离联合方案
为了解决传统物理大数据平台架构的痛点,东方国信、XSKY 星辰天合与英特尔联合推出了云原生大数据存算分离架构方案。在该架构中,大数据存储分离部署架构主要使用独立的对象存储服务或者分布式文件存储服务存储数据,计算服务运行于容器内,计算任务通过网络的方式来访问位于远端的存储服务,从而实现数据计算和数据分析的工作。存算分离较好地解决了存算一体化带来的存储/计算资源浪费问题,实现了更敏捷的资源扩展。

图 1. 东方国信、XSKY 星辰天合、英特尔云原生大数据存算分离联合方案架构
东方国信、XSKY 星辰天合、英特尔云原生大数据存算分离联合解决方案包括如下重要组件:
● 英特尔® 至强® 可扩展处理器:英特尔® 至强® 可扩展处理器提供了业界领先、经工作负载优化的平台,有助于加快多云、智能边缘和后端等数据的变革性影响。该处理器在计算、网络、存储和持久内存中带来了创新和硬件增强的虚拟化特性,可支持实现经济高效、灵活且可扩展的多云架构。
● 英特尔® 以太网融合网络适配器:英特尔® 以太网融合网络适配器具有专业的网络性能,可支持虚拟机设备队列 (VMDq)、单根 I/O 虚拟化 (SR-IOV) 等各种高级功能,并提供了全面的兼容性、广泛的产品选择、简便的安装和可靠性、全球发售以及世界级的支持。
● XEOS:XSKY 星辰天合通过全新的存储技术手段,基于通用的服务器构建了一个无限扩容、持续在线、可跨地域访问、智能分层流动的高性价比对象存储架构体系,在保证了数据高安全性的同时,打破存储规模、地域限制及存储厂商的壁垒,降低企业 IT 建设的整体投入,满足了新业务形态的多源化存储需求。
面向分布式文件存储与对象存储应用场景,该解决方案分别提供了两种云原生大数据部署模式。其中,基于分布式文件存储的云原生大数据解决方案主要适用业务包括大数据交互式查询等即时性的、对响应和性能要求较高的场景,可以和大数据计算层无缝对接,计算层用户任务程序零改造。基于对象存储的云原生大数据解决方案主要适用业务包括大数据批处理场景、离线任务、冷数据存储、备份等。
软硬件联合优化,实现性能与成本的卓越平衡
验证:多种场景下系统性能实现大幅提升



不同冗余机制性能对比

图 2. 不同数据冗余机制的执行时长

图 3. 不同数据冗余机制的集群吞吐性能对比
批处理场景下性能对比
在此场景下,测试人员对比了存算一体的传统物理大数据方案与 BCDP+XEOS 对象存储的存算分离部署模式在运行 Spark 批测试用例时的性能。后者同时结合 XEOS 的 EC 纠删码机制,可以降低大数据的长期存储成本。
测试数据如图 4所示,BCDP+XEOS 对象存储的存算分离方案在大部分大数据跑批业务场景也可以达到物理化存算一体方案的性能,某些场景表现甚至更优,多个测试用例总时间对比传统物理大数据存算一体化架构有 17% 提升。相比物理化存算一体方案,使用 BCDP+XEOS 对象存储的存算分离方案,可获得更多可用存储空间,适用于存储海量数据,达到优化使用成本的目的。

图 4. Spark 测试用例执行时长对比
交互式查询场景下性能对比

图 5. Kyuubi(SparkSQL)测试 SQL 执行时长对比
收益
助力用户在云原生环境下释放大数据潜能
东方国信、XSKY 星辰天合、英特尔云原生大数据存算分离联合解决方案除了在功能、性能等方面有着卓越的表现,而且具备低成本、敏捷运维等优势,可以帮助用户充分释放大数据价值,助力业务增长。
高性能加速大数据业务处理
得益于高性能的硬件、云原生存算分离架构,以及软硬件协同优化,解决方案在批处理、交互式查询等场景下皆展现了强大的性能优势,有助于加速大数据业务处理、降低延迟,支撑更多创新型业务的发展。
高性价比,提升用户投资收益
解决方案实现了计算与存储逻辑单元分开,用户可根据业务负载将计算层和存储层按需单独扩缩容,互不影响。在大数据计算层,BCDP 将大数据计算层服务部署在容器中,借助容器使离线业务充分利用在线业务空闲时段的资源,并实现资源按需使用,提高资源利用率;在大数据存储层,分布式文件存储服务 XGFS 和对象存储服务 XEOS 均支持灵活高效的纠删码策略,在资源有限的情况下使得盘率与可靠性得到平衡,降低存储成本。
简化运维,助力提升系统可用性
BCDP 利用容器技术可以一键式地、分钟级别地创建一个大数据计算层集群服务,并且支持快速启停和实时的扩缩容业务资源以满足生产需求,当面临业务的高峰期,只需要向 Kubernetes 申请容器资源,即能够以秒级别启动容器并提供算力,简化流程;存储服务 XEOS 和 XGFS 通过图形化用户控制台,帮助客户快速上手并使用存储服务功能,而且存储服务还支持分级告警、自助巡检、自我检测等功能,不仅简化了日常运维的复杂度,且有助于提前识别系统潜在隐患。
展望
关于东方国信
关于 XSKY 星辰天合
关于英特尔
英特尔(NASDAQ: INTC)作为行业引领者,创造改变世界的技术,推动全球进步并让生活丰富多彩。在摩尔定律的启迪下,我们不断致力于推进半导体设计与制造,帮助我们的客户应对最重大的挑战。通过将智能融入云、网络、边缘和各种计算设备,我们释放数据潜能,助力商业和社会变得更美好。





