暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

GBase 8a 性能调优方案2

原创 余乔木之店小二Kingtao 2022-02-28
1752

2  架构设计优化

对于MPP数据库的系统架构设计优化一般有两大原则,一个原则是混搭,充分利用各种技术的优势;另一个原则是分层,通用分层来有效提升系统的吞吐量和处理性能。一个典型的经过优化之后的分析型数据平台的架构设计的示意图如下所示:


图:混搭+分层思想优化后的架构设计示意图

架构设计优化——混搭

混搭架构的设计原则可以综合利用各个平台的优势,具体说明如下:

第一,适才适所的原则。基于各个平台的优势和劣势,采用Hadoop + MPP+传统数据库的混搭架构,充分发挥各个平台的优势,最大限度发挥集成后作为系统整体的处理性能。

第二,Hadoop的优劣势分析。

优势。离线海量数据的批量处理适用于批量ETL处理类场景。

劣势。复杂SQL的支持程度不完善,采用全表扫描方式执行效率不高。

第三,MPP的优劣势分析。

优势。对复杂SQL支持程度好,智能索引机制,可以高效处理基于限制条件的记录查询、多个大表关联查询以及基于分组的汇总等场景。

劣势。对于小批量数据更新等DML处理并不擅长。

第三,传统数据库优劣势分析。

优势。在数据限制在一定规模条件下,可以基于B树等记录级索引快速定位数据并执行数据的增删改和其他基于个别记录的处理。

劣势。针对更大规模数据时,在数据入库、大表间关联、和立方体计算上均不擅长。

架构设计优化——分层

分层设计是系统架构设计非常经典的优化思路,在数据仓库领域下游数据处理为上游数据处理提供数据预处理,有效提升系统深度分析处理性能。分层思想的具体架构优化策略如下所示:

第一,Hadoop 批处理层。处理每日新产生日志、上网数据、以及位置信息,对这些数据进行顺序处理,通过MapReduce可以实现数据的清洗、过滤、结构化转换和轻度汇总等。

第二,MPP 分析层。处理转账信息和上网信息等和用户资料等主数据之间的关联,以及在关联基础上基于维度的汇总、统计,生成立方体结构上的各类指标。

由于对于基础大量的数据已经在Hadoop层进行了清洗和轻度汇总,在MPP内管理的数据尺寸有了很大程度的缩减,所以基于Hadoop + MPP的策略,MPP库内数据处理性能可以得到进一步提升。

第三,传统数据库展现层。用于在高度汇总层以上的数据的呈现和用于报表的宽表的生成等。

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论