暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

GBASE创造金融行业最大数仓 海量数据负载运算处理

GBASE数据库 2022-06-22
305

GBASE南大通用自2004年成立以来,始终坚持自主创新,产品的核心技术及底层代码自主可控,构建了覆盖数据管理全生命周期、全技术栈的数据产品体系及服务解决方案。目前,南大通用已经成为国内少有的专注于数据库产品研发,并且在金融、电信行业得到规模化应用的独立数据库服务商。

随着互联网和“大数据”时代的来临,传统银行如今面临来自其他领域的跨界挑战前所未有。如何转变思维,唤醒沉睡的数据,建立强大稳定的数据分析系统,开发创新数据应用,实现经营转型,是银行业“大数据”时代迫在眉睫的任务。同时,也是农业银行在转变经营思路的过程中,一直思考的问题。

中国农业银行数据仓库项目最初是基于Sybase IQ建设的,主要应用于统计报表。随着数据量的不断增大、接入的系统越来越多,Sybase IQ由于性能的限制,已经很难在指定的时间窗口中完成数据统计分析工作,也无法继续接入其它的业务系统数据,无法满足银行内部数据分析和监管机构的监管数据要求。

系统架构的障碍影响了农行从宝贵的数据资源中挖掘价值,寻找新的、更先进的产品构建核心数据仓库成为农行迫在眉睫的任务。

为了应对上述问题,农行着手构建新型大数据平台时提出了以“数据是基础,治理是保障,技术是支撑,分析是关键,应用是目标”的原则,核心目标是实现数据价值在业务应用中转变为生产力,构建数据价值利用的有效闭环,真正实现从数据支撑到数据运用的转变。在此过程中,需要对数据治理,提高数据质量,从而更好地满足数据挖掘需求,为数据价值在业务中的深入应用夯实基础。

农业银行作为典型的数据密集型单位,数据的重要性日益凸现:一方面,数据是其信息化的核心,是保障银行正常运转的关键,对数据库系统的稳定性和安全性有着十分苛刻的要求;其次,数据是宝贵的资源和财富,体量增长非常迅速,新构建的数据仓库系统必须具备对新生数据进行及时处理,计算和管理的能力。其主要需求,概括如下:

(1)    解决海量数据快速运算与管理的问题:

能够支持PB级以上数据、超过万亿行的数据库表、可以支撑每天处理上千的复杂作业处理能力的并行数据库产品(本条目中的性能指标为2014年项目启动之初的原始需求,目前已经构建的数据仓库系统性能指标远远大于如上数据)。

(2)    系统需要灵活可扩展:

要求系统能够具有不断的线性可扩展的能力,具备较高比例的数据压缩能力,从而能够保障系统随着数据的增长而线性扩展。

(3)    安全稳定:

数据仓库系统必须安全稳定,具备7×24小时不间断提供服务的能力,保障上层业务系统稳定运行;MPP数据库需要具备强大的备份和容灾能力,能够保障数据本身的安全,杜绝因故障引起的任何数据丢失的可能。

(4)    开放可靠:

能够基于x86和Linux开放平台搭建;产品厂商需要具有强大的本地支持团队,能够为客户提供及时的、全方位的服务。


为此最终农行数据仓库架构如下图所示,由数据来源层,数据处理层,模型指标层,数据集市层,分析展示以及应用门户层组成。

数据来源层:最下层为数据来源层,数据来源层包括新一代核心银行系统、综合应用系统、客户管理系统、贷记卡、银行卡、电子银行、反洗钱征信和财务系统等78个源系统,分别按照一定时间窗口,进行全量/增量数据加载,要求满足T+1需求。目前,数据来源层共计上万张表,最大表超过千亿行。

数据处理层:数据处理层由Hadoop构建,完成对数据的抽取,清晰转换以及拉链表的加工。目前,数据处理层每日处理完毕的数据输出几TB。数据加工完成之后,加载至模型指标层,即农行数据仓库主库。


数据集市层:同时,通过使用GBase 8a MPP Cluster构建了针对上层业务的资负集市,零售集市,个人客户集市,对公客户集市、分行数据集市、运营风控集市、信用风险集市、财务数据集市、广东分行信用预警分析系统以及分析数据集市等各个集市子系统。为了实现数据的高安全、系统的高可用,采用双活集群组成数据仓库。数据仓库主库加工后的数据,通过DBLink方式,由主库传输到集市环境。

分析展示层:使用特定的计算分析引擎,建立数据模型等方法,完成对数据的挖掘和使用。

应用展示层:应用展示对数据进行最终的调取使用,以供服务和业务的展开。


价值表现如下:海量数据管理,为用户提供了并行海量复杂数据处理平台,帮助客户形成PB级以上的业务数据单一视图,为客户提供及时高效的数据分析结果;满足监管需求:通过对数据统一的管理与治理,满足上层监管部门对上报监管数据的要求,保证数据的准确性、及时性,完整性;通过数据指导业务:通过数据仓库的建立,对数据在生命周期内有效和高效的管理,证客户接入更全面的业务数据,满足市场营销、内部管理、内外监管的分析业务需求;支撑银行领域数据观念转变:随着数据技术和分析理论的发展,要求银行分析业务必须从抽样数据向全体数据,从绝对到效率,从原因分析到相关性分析转变,数据仓库的建立,很好的支撑了这种转变,使理论成为现实;创新的大数据平台架构:将MPP数据库技术和Hadoop技术的混合使用并搭建组成大数据平台,是金融行业的大数据技术架构和应用的创新,荣获银监会二等奖。 目前农行的大数据平台服务器数量已经高达上千台左右,是国内金融行业最大的数据仓库和大数据平台。

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论