暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

提速SparkSQL性能2.9倍!东方国信基于AVX-512 指令和英特尔® QAT 的大数据向量化解决方案

374

近日,以“算启新程 智享未来”为主题的中国移动全球合作伙伴大会在中国广州保利世贸博览馆盛大召开,为业界带来一场极具科技性、创新性、前瞻性的数智盛宴。作为英特尔重要战略合作伙伴,东方国信应英特尔邀请,携双方共同打造的大数据解决方案亮相英特尔展区。



每逢佳节倍思亲

“Gluten 可以很好的将 Spark和 C++ 开发的向量化引擎 Velox ‘粘合’ 在一起,使得 Spark Operators 和Functions 可以很方便的结合新硬件指令集的优化方案,达到提升计算性能的目的。我们还采用第四代英特尔® 至强® 可扩展处理器集成的 QAT 加速器,显著提升了 Spark 的执行效率,同时降低了 CPU 使用率、磁盘读写、网络吞吐量,减少后台程序对硬件资源的占用,提升了大数据平台集群稳定性,助力用户构建卓越的大数据系统。


——王虎  东方国信大数据事业部



  挑战

通过大数据技术来挖掘海量数据的价值已经成为数字化转型的重要方向,这也驱动了 Apache Spark 生态的快速发展,Spark也成为目前最流行的大数据计算引擎。但同时,Spark 也面临着性能、成本等多方面的挑战:


  CPU 性能瓶颈:随着 IO 技术的提升,尤其是 SSD 和高带宽网卡的普及,大数据处理过程中 IO 的瓶颈越来越小,CPU 计算瓶颈愈发凸显,而基于 Java 开发的 Spark 引擎想通过 JVM 进行 CPU 指令层面的优化比较困难。


 • 部分优化方案存在兼容性问题:当前,一些原生向量优化的计算引擎能够通过向量化执行带来显著的性能优势,但是与 Spark的Java 生态的兼容性不佳,对于依赖 Spark 计算框架的用户不够友好。


• Spark 方案的总体拥有成本 (TCO) 较高:在优化前的 Spark 方案中,由于执行效率存在瓶颈,因此需要较大规模的服务器来处理海量数据,以满足特定的性能目标,这带来了较高的 TCO。


  解决方案概述

在人工智能 (AI)、云原生、5G、边缘计算等数字化创新技术的驱动下,企业累积的数据呈现出爆发式增长的趋势,为挖掘海量数据背后的价值,大数据交互式探索业务负载使需求急剧增加,这使得 Spark 生态获得了快速发展。但同时,由于 Spark 在执行效率方面的瓶颈,导致用户面临着性能、成本等多方面的挑战。


东方国信大数据 BEH 平台通过集成 Gluten + Velox Backend 向量化执行引擎,为 Spark注入了原生矢量化执行的能力,同时结合第四代英特尔® 至强® 可扩展处理器,以及处理器集成的英特尔® QuickAssist(英特尔® QAT)加速器,显著优化了 Spark 批处理计算、SparkSQL 计算、SQL 查询服务的执行效率。经测试,在相同硬件环境下,配合英特尔® QAT 的加成,Spark 计算性能可提升高达 2.91 倍。

东方国信 Spark 优化方案


集成 Gluten + Velox Backend 向量化执行引擎的

东方国信大数据 BEH 平台

在开源 Hadoop 的基础上,东方国信对 Hadoop 组件进行增强和封装,推出了适用于超大规模数据存储和在线分析的东方国信大数据平台企业版 (BEH) 通用产品解决方案,可以帮助企业快速搭建大数据平台,提升开发效率,降低后期维护成本。东方国信大数据平台企业版 BEH 支持运维人员开箱即用,在多环境(物理和云化环境)下实现一键部署,统一管理和运维。同时,开发人员可使用工具化编排功能简化数据分析、加工过程,满足大数据时代海量数据在线分析应用的迫切需求。


为了解决 Spark 执行效率的问题,东方国信大数据 BEH 平台集成了 Gluten + Velox Backend 向量化执行引擎。其中,Gluten属于 Spark 硬件加速项目,通过 CPU 的单指令多数据 (SIMD)指令集及加速库 (Velox 或 ClickHouse) 来使得 Spark 具备更好的向量化执行能力。Gluten 能够通过 Spark Plugin 的机制,拦截 Spark 查询计划并下发给原生引擎来执行,整体的执行框架仍沿用 Spark 既有框架实现。

Gluten 技术架构


Velox 是一个由 C++ 编写的数据库加速库 (lib),可充分利用高级向量扩展 (AVX) 等最新的硬件指令集进行计算。同时它提供了可重用、可扩展和高性能的数据处理组件,可以重用这些组件来构建专注于不同分析工作负载的计算引擎,包括批处理、交互、流处理、人工智能和机器学习等工作负载。



通过第四代英特尔® 至强® 可扩展处理器进行性能优化


为了进一步提升 Spark 执行效率,东方国信在 BEH 平台中采用了第四代英特尔® 至强® 可扩展处理器,并利用处理器集成的 SIMD 指令集以及英特尔® QAT 来提升 Gluten +Velox Backend 向量化执行引擎的性能。


第四代英特尔® 至强® 可扩展处理器通过创新架构增加了每个时钟周期的指令,每个插槽多达 60 个核心,支持 8通道 DDR5 内存,有效提升了内存带宽与速度,并通过PCIe 5.0(80 个通道)实现了更高的 PCIe 带宽提升。


第四代英特尔® 至强® 可扩展处理器提供了出色性能和安全性,可根据用户的业务需求进行扩展。借助内置的加速器,用户可以在 AI、分析、云和微服务、网络、数据库、存储等类型的工作负载中获得优化的性能。通过与强大的生态系统相结合,第四代英特尔® 至强® 可扩展处理器能够帮助用户构建更加高效、安全的基础设施。

第四代英特尔® 至强® 可扩展处理器为数据中心提供多种优势


英特尔® QAT 是英特尔面向高性能安全性、私钥保护和压缩/解压缩等场景推出的一个硬件加速技术,能够将相关负载从 CPU 卸载到 QAT 中,有效提升应用程序和平台的性能。英特尔® QAT能够以硬件方式为高效的压缩算法进行数据压缩,在不额外增加CPU 负载的前提下,提高数据压缩效率,缩短端到端备份用时。


英特尔® QAT 支持硬件加速 Deflate 无损压缩算法,在处理海量数据时,QAT 在不增加 CPU 开销的前提下,通过压缩来减少需要传输和存盘的数据量,从而减少网络带宽和磁盘读写的开销,最终提高整体的系统性能。东方国信在该方案中使用 QAT 优化数据 Shuffle 性能,在列式存储计算时可大幅提升计算性能。


在测试中,东方国信对比了三个方案:1. Spark 组件集成Gluten + Velox;2. Spark 组件集成 Gluten + Velox + QAT;3. Vanilla Spark(普通 Spark:未集成 Gluten + Velox),分别对其性能和功能进行相关验证。测试架构中,资源调度使用 YARN集群,存储层使用 HDFS 集群,硬件资源使用第四代英特尔®至强® 可扩展处理器、以及高性能网卡、内存和磁盘。


TPC-DS 性能对比测试数据如图 4 所示,在 SF=2T 的数据量下,Spark + Gluten + Velox 对比 Vanilla Spark,TPC-DS 99条 SQL 执行效率有 2.73 倍的提升;Spark + Gluten + Velox +QAT 对比 Vanilla Spark,TPC-DS 99 条 SQL 执行效率有高达2.91 倍的提升。

执行效率对比





收益


通过采用第四代英特尔® 至强® 可扩展处理器,集成 Gluten + Velox Backend 向量化执行引擎的东方国信大数据 BEH 平台在性能上有显著提升,能够为用户带来如下价值:


• 显著提升 Spark 执行效率,应对大数据分析快速增长带来的挑战,从而支撑用户挖掘海量数据的价值,支撑更多创新型业务的发展。


• 方案能够有效释放 CPU、存储等硬件潜力,提高性能密度与资源利用率,降低在大数据系统扩展方面的投资,从而有助于降低大数据系统的总体拥有成本 (TCO)。


• 方案能够有效兼容当前 Spark 生态,无需用户将业务迁移到新的平台上,从而避免业务迁移所带来的负担。


  展望

在当前工作的基础上,东方国信将与英特尔在优化 Spark 执行效率方面开展更多的工作,包括支持 Spark/Velox 更多的 Operators,将 Functions 下推到 Velox 执行,以及进一步挖掘英特尔® 至强® 可扩展处理器的性能潜力,支持用户通过大数据平台对海量数据进行近即时的处理与分析,深入洞察市场需求,快速做出明智决策,获得重要商业价值。


关于东方国信

BONC


北京东方国信科技股份有限公司成立于 1997 年,是一家专注大数据、云计算等领域核心技术的高科技软件企业,经过20 余年的发展,东方国信已形成横向跨行业、纵向全产业链的战略布局。打造了基于大数据、云计算、移动互联,全链条、全自主知识产权的技术研发体系,实现了大数据端到端全产业链的自主研发,并以丰富的大数据软件产品和解决方案服务于通信、金融、工业、政府、城市、农业、医疗、新零售等多个业务领域。


关于英特尔

Intel


英特尔 (NASDAQ: INTC) 作为行业引领者,创造改变世界的技术,推动全球进步并让生活丰富多彩。在摩尔定律的启迪下,不断致力于推进半导体设计与制造,帮助客户应对最重大的挑战。通过将智能融入云、网络、边缘和各种计算设备,释放数据潜能,助力商业和社会变得更美好。

文章转载自东方国信大数据,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论