暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

案例分享|GBase某大型银行大数据平台

天之痕 2022-01-21
741

客户原有数据分析平台基于SYBASE IQ建设,随着数据量的不断增大、接入的系统越来越多,系统加工效率逐步降低,同时也无法继续接入更多的源系统数据。为满足行内数据分析和监管数据不断增加的需求,客户银行在2013年开始建设完全自主可控的大数据平台。南大通用GBase8a MPP Cluster集群在众多备选产品中脱颖而出,被选作大数据平台核心组件企业数据仓库及集市的数据管理基础软件。截止目前,客户大数据平台已经建成为数据源完整、业务支撑覆盖面广的银行重要IT基础。

平台建设期间,客户与南大通用共同对MPP数据库进行深入研究、适配,总计完成数百项包括底层架构、高可靠性、高可用性、性能等方面的优化与改进。南大通用GBase8a MPP Cluster产品也发展成为国内企业大数据、数据仓库领域基础平台软件的领先产品。

1.1.1.1 项目历程

2012年10月至2013年7月,项目组与多家厂商进行了技术交流,并组织了对Oracle、IBM、EMC、GBase8a等主流数据库,IDH、CDH、ZDH、Fusion Insight、Inceptor等Hadoop发行版的调研与选型测试,通过MPP数据库、Hadoop的研究、学习,初步得到结论,可以将Hadoop与MPP数据库相结合运用。

2013年8月,客户数据仓库正式立项,确定采用南大通用GBase8a MPP Cluster与Hadoop的混搭架构。

2013年11月30日,数据仓库原型集群及资负、零售数据集市试运行(28节点MPP集群)。

2014年11月,数据仓库原型环境向生产环境(56节点MPP集群)的迁移与切换工作完成,迁移有效数据103T。

 2014年12月,完成财会集市(16节点MPP集群)搭建。

2015年4月5日,数据仓库及资负、零售数据集市投产上线。

2015年底至2016年3月,完成ODS迁移至Hadoop、集市外迁及双活环境搭建等一系列架构优化升级,升级后GBase MPP数据库集群共计250个节点,容量5.2PB;Hadoop集群共计150个节点,容量4.3PB。

2016年11月2018年6月,完成八大集市即个人客户集市、对公客户集市、财务数据集市、监管数据集市、风险数据集市、运营风控集市、审计内控集市和分行数据集市的投产上线,同时建设集数据处理、模型算法、结果展示于一体的数据挖掘平台,建立了统一的数据质量管理、提数、对外报送平台等应用。

2018年7月至今,完成主库升级扩容,主库节点数达到112节点,对八大集市进行了升级、双活搭建和部分集市扩容工作,整体性能提升3倍,全面提升了客户大数据平台基础架构,提升大数据平台服务能力。

目前平台规模为:GBase MPP数据库集群共计1156个节点,容量约35PB,Hadoop集群共计457个节点,容量16PB;其他数据加载服务器、调度服务器等合计37节点。

 

1.1.1.2 解决方案

围绕客户发展战略,围绕数据管理和数据服务两个基点,按照全行大数据平台统一框架,遵循“统筹规划、顶层设计、共享复用、分步实施”的设计思路,构建全行企业级大数据平台,实现数据资源统一管理,全面提升数据服务能力,充分挖掘数据价值,满足全行客户营销、风险管控、经营管理及外部监管需要,推动数据治理,全面提升全行数据资源管理水平和数据资产综合应用能力,促进业务“用数据说话”,为业务发展提供不竭的内生动力,持续推动全行业务创新、营销创新、服务创新、管理创新。

实现行内业务数据统一管理,可以采用与第三方合作等方式获取行外数据,实现数据资源的全生命周期管理;向行内各层级各业务条线,提供全方位的数据产品;建立健全数据服务管理体系;统筹规划,建设个人客户、对公客户、运营风控、风险管理、绩效管理、审计内控、监管统计、分行集市等八大领域数据集市;业务支撑涵盖客户营销、风险管控、运营分析、外部监管、资产负债、绩效管理等各个领域;基于行内外数据开展各领域和热点业务分析,深度挖掘数据价值。

 

平台采用南大通用GBase 8a MPP Cluster+Hadoop混搭架构建设,其中GBase集群总计1156个数据节点,其中主仓共224个节点,采取双集群组成双活主库, 8套集市环境也采取双集群组成双活集群,另外还有分析挖掘、反洗钱、提数平台、数据质量检查等10套外围应用;Hadoop集群总计457节点,其中ODS Hadoop集群337节点,其余为流计算平台Spark数据分析挖掘平台。

 

总体架构图

GBase8a MPP集群承担大数据平台核心组件:企业数据仓库(EDW)、数据集市(DW)及数据挖掘、数据提取、监管报送等应用;

Hadoop集群承担数据操作区(ODS)处理、历史数据备份及流计算以及部分分析挖掘工作。

大数据平台还包括:统一调度、统一监控、统一ETL开发工具、统一元数据管理、统一数据质量管理等系统以及统一展示平台。

 

关键技术1:混搭架构

运用Hadoop集群非结构化数据处理优势,将数据清洗、转换、字符编码自动识别转换、去重等ODS任务分解为分布式、并行执行的M-R作业,同时将全量数据加工为增量数据,降低数据处理量级,显著提升ETL性能。

主库作业通过GBase8a MPP加载工具直接从Hadoop读取并加载LZO文件,数据入库效率提升显著,同时降低了大量网络开销;主库MPP集群在增量数据入库后,完成基础模型加工、指标汇总等高价值、大数据量复杂运算;集市MPP集群主要负责各领域宽表加工、多维分析(CUBE)及部分报表加工。

目前大数据平台日终加工时间为4-5小时,月终加工时间为6-7小时,日终处理数据文件6.5TB,月终处理8TB。其中MPP数据库内复杂作业1万多个,涉及SQL语句10万多个,库内总计约10万多张表,存储总数据量接近20PB裸数据,最大表约2.5万亿行。

关键技术2:MPP集群双活

 

双活架构示意图

通过运用GBase8a MPP集群间同步工具识别主集群增量数据(以DC为单位),点对点传输至备集群,实现主备集群数据一致;同时结合大数据平台批量加工调度平台、监控平台,制定双活方案。实现:1)、每日增量数据备份;2)、主集群负责批量加工、备集群负责联机查询的负载分担模式(Active-Query for Asymmetric Workload);3)、主集群发生异常时,批量加工可在较短时间内切换至备集群。

集群双活机制解决了大数据场景中PB级数据备份的难题,也提升了大数据平台业务高可用性、稳定性,保障了批量加工业务的连续性,同时提升了平台整体服务能力。

 

关键技术3:MPP集群间数据交互

主库完成基础模型、指标汇总后,各集市按照业务领域从主库获取全量或增量接口数据,单日接口数据达上百TB,如采用传统文件交换的方式,不仅效率远无法满足集市支撑的上层应用需求,也会造成系统运行不均衡、性能缓慢等异常。GBase8a MPP数据库提供的透明网关机制(DBLink)有效解决这一难题,通过该机制,8个集市每日获取主库接口数据的时间缩短至总计约1小时,同时保障数据传输的高可用性。


目前大数据平台已经接入超过90个业务系统源数据,向资产负债决策支持、定价管理、资金及FTP管理、信用卡客户价值、信用卡数据平台、支付信息统计分析、电子银行报表、客户关系分析、客户统一视图、信息共享平台、数据信息报告系统等20个应用提供数据服务。

1.1.1.3 建设效果

这是中国金融行业最大的数据仓库和大数据平台,也是第一次国产化数据库进入4大行的核心业务系统。作为客户大数据平台核心架构的GBase8a MPP Cluster,其海量数据处理能力为用户提供了性价比很高的海量并行复杂数据处理平台,帮助客户形成PB级以上的业务数据统一视图 ,为客户提供及时高效的数据分析结果;其高性能、系统架构高可扩展特性,保证平台接入更全面的业务数据,满足市场营销、内部管理、内外监管的分析需求; 其高压缩比特性,为用户提供完备压缩态存储管理海量数据的能力,进一步降低客户数据仓库建设的成本;其高可靠性、高可用性包括世界首例PB级数据量下的双活集群,保障了客户大数据平台连续稳定运行超过1600天。

在不断的市场实践和用户反馈中,此案例体现出以下几点突出价值:

提速:查询分析类性能提升10-100倍

省盘:存储空间节省50%-90%

省钱:软硬件投资节省50-90%,节电30%-50%

成云:支持云计算架构,横向扩展能力

全文:集成全文检索,管理半结构化数据(云文件)

转非:非结构化数据的结构化提取和转化

全数据:统一处理结构化、半结构化和非结构化数据

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论