暂无图片
暂无图片
1
暂无图片
暂无图片
暂无图片

GoldenDB 混合负载(OLTP+OLAP)架构设计与应用

138

1、什么是HTAP场景?

HTAP(Hybrid Transactional/Analytical Processing,混合事务/分析处理)是一种新型的数据库技术架构,旨在打破传统数据库系统中事务处理(OLTP)和分析处理(OLAP)分离的界限,实现在同一套数据库系统中同时高效支持实时事务处理和复杂数据分析的能力。

HTAP在行业的适用性取决于实时性需求与业务复杂性的平衡。在金融行业,对于信用卡风控、实时营销、流动性管理等场景,HTAP可大幅提升效率;但对于超高频交易(如支付清算)或超大规模历史分析(如监管报送),仍需结合专用系统(如OLTP数据库+数据湖)。银行在落地时应优先选择业务价值高、数据时效敏感的场景试点。

如下罗列了典型的HTAP业务场景:

  除在金融行业存在上述典型场景外,在政务行业同样存在需要借助HTAP能力提升系统混合负载能力的场景,如订单实时风险分析与布控、智能审单与归类建议、动态信用管理、税费实时计算与稽查以及口岸通关效能监测等场景。

2、GoldenDB HTAP架构及特性

GoldenDB HTAP架构(1.0版本)在计算层分交易型(TP)计算节点和分析型(AP)计算节点,在存储层分为行存存储引擎和列存存储引擎,其中:

  • 交易型计算节点和分析型计算节点由GoldenDB管理节点进行统一管理,双引擎分别对应各自行存和列存存储引擎;
  • 当计算节点分析判断在线业务请求是OLTP类SQL时,将业务请求直接下发给TP引擎处理;
  • 当计算节点分析判断在线业务请求是OLAP类SQL时,将请求直接下发给AP引擎处理,由分析引擎Coordinator承担复杂查询、复杂分析的OLAP任务,支持通过自动路由和HINT方式;

   

图 GoldenDB HTAP(1.0版本) 架构图

分析型计算引擎+混合存储架构更适合多维分析和报表查询场景,具有如下典型的技术优势:

MPP-based Query Engine

  • MPP(大规模并行处理结构)将任务并行的分散到多个服务器和节点上,节点间和节点内都并行执行,支持多个大表的分布式 Shuffle Join,从而能够更好应对复杂查询。
  • 查询优化,通过对查询请求进行分析和优化,选择最合适的查询路径和算法,以减少查询时间和计算资源消耗。同时,MPP查询架构还采用了数据预聚合和缓存等技术,以减少重复计算和数据访问,进一步提高查询性能。

Push-based Pipeline Exec Engine

  • 基于Push-based pipeline的执行引擎,Pipeline 执行模型通过阻塞逻辑将执行计划拆解成 Pipeline Task,将 Pipeline Task 分时调度到线程池中,实现了阻塞操作的异步化。
  • 数据池化技术,将单个数据分桶中的数据进行池化,从而解除分桶数对 Instance 数量的限制,提高 多核系统的利用能力,同时避免了线程频繁创建和销毁的问题,提高了系统的并发性能和稳定性。

Vectorized  Exec Engine

  • 向量化执行采用了a-vector-at-a-time的方式,即一次处理一个bach,可以直接使用SIMD指令,通过控制好vector size充分利用cpu cache。
  • 向量化执行并行计算,可以同时处理多个元素,利用CPU cache、减少类型转换和条件分支,并且在需要时进行值的合并。向量化hash join性能比 Volcano 模型hash join提高了约 40 倍。
  • 高效利用 SIMD 指令进行向量化计算,从而大幅度加快计算速度。

Column-based Storage Engine

  • 查询速度更快:由于数据是按照列存储的,查询时可以大幅度减少数据的读取量,减少不必要的数据扫描,从而更高效的利用 IO 和 CPU 资源。
  • 处理效率更高:按列对数据进行编码、压缩和读取,从而可以达到非常高的数据压缩率,聚合计算等方面具有更高的效率,可以有效降低计算资源的消耗。
  • 可扩展性更强:列存数据仓库可以更方便地进行水平扩展,从而满足企业不断增长的数据存储和分析需求.

3、某政务项目实践案例

某政务系统订单加工及质量检控分析系统,是典型的HTAP场景,分为作业库和分析库,其中订单库每日需加工处理数百万订单,主要流程为对符合条件的数据执行更新操作,通过数据库JOB作业定时处理。分析库主要针对订单数据执行稽核和检控,对业务合规性校验,对问题订单根因分析并提供损失评估与报表。

原系统通过将作业库和分析库分别部署在SQLServer和某国产分析性数据库上,解决了部分场景功能性问题,但同时也引入了下列问题:

  • 数据新鲜度问题,由于采用两套不同架构的数据库,只能通过引入第三方工具完成库级别逻辑复制,时效性和稳定性无法得到保障。
  • 运维复杂度增加,特别在系统变更以及日常问题分析和排查,增加了运维成本和复杂度。
  • 系统扩展性差,随着系统负载增加,需要分别对两套库执行扩容,灵活性差且扩容方案复杂。

现在通过GoldenDB的HTAP架构可以有效解决上述问题,整体组网如下:

系统自2025年9月份正式投产以来运行问题,各项系统运行指标均超过原系统,尤其报表类功能模块,整体性能提升50%以上;同时,通过配套的数据同步复制工具SLOTH提供下游系统准实时供数能力,高效地实现了系统间的数据流转。

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论