暂无图片
暂无图片
7
暂无图片
暂无图片
暂无图片

GBase湖仓一体助力银行数字化转型

原创 大数据模型 2023-04-27
1354

湖仓一体由来

大的方向上来看,数据分析架构平台经历了三代演变。

第一代是数据仓库,当数据不断增长,现有的数据库已经不能提供足够的算力,就把数据转移到另外一个数据库组成的分析平台上,通过更快的算力,更大的存储,并且不影响现有的数据库运行,这个分析平台发展后来叫做数据仓库。后来,hadoop技术出现,数据仓库除了由数据库构成,也可以由分布式文件系统构成,基于分布式环境上我们再提供MPP计算以及数据库相关特性,称之为SQL ON HADOOD,不但可以解决海量数据的问题,而且方式还非常灵活。一直以来,数据仓库强调对数据的加工处理,对数据处理后分为粗粒度和细粒度,再根据业务进行打标签,面对用户的需求进行不同组装。数据服务就绪后,通过数据仓库的集市功能对外对接用户。

数据库、数据仓库、数据集市的根本区别是,严格意义上来说,数据库是一个工具产品,数据仓库是综合性产品汇聚的解决方案,而数据集市则数据仓库对外开放,对接应用必须要有的一个功能。三者互相独立,又互相交集。

第二代是数据湖,数据仓库架构发展面临了一个难题,数据分析的高阶使用是机器学习和数据挖掘,如果能从数据挖出黄金出来,那么数据分析物尽其用,事实上,大部分挖出来的都是青铜白银,原因在于数据已经做过了大量的清洗,把数据科学家需要的东西洗掉了,数据仓库对数据科学家不友好,原始数据集也很重要。因此产生了数据湖,数据湖包括数据源和数据仓库的数据,以及入仓前的所有的数据,因为数据庞大,如果没有按时清理,就会小沦陷变成数据沼泽。

把数据源比喻四面八方的水,数据仓库就是建了一个水厂,归集汇聚全域所有的数据,对进行清洗、梳理、整合、转换,分类分级放在不同的池里面,最后打包封装成纯净水、矿泉水,按瓶子、按桶卖给怡宝应用厂商、农夫山泉厂商等等。

数据湖则是把所有数据放在天然湖里面,这里都是原始的数据,数据湖尽可能保留数据的天然味道,当然也会准备加工池,加工池会从原始池里面拿数据。同时根据工作对象的需求,还会有一个工作池,便于处理不同版本的数据,其实也是为了满足数据科学家和高级数据挖掘工程师的需求 。

第三代湖仓一体,目标显然非常清晰了,既需要天然湖和水厂,湖仓一体可以提高数据治理的效率,实现高效的数据共享交换,降低管理与维护成本。

银行分析需求

银行在国家经济发展中发挥着信用中介、支付中介、信用创造 、金融服务和调节经济重要作用。银行的商品不是日常生活中消费品,即使挂到网上也不会有太多购买 ,没有高并发的需求,没有千万级的请求涌入访问同一个数据对象,但是银行作为国家经济实体的重要支柱,银行核心业务计费系统和转帐系统对TP提出苛刻严格的要求,首先要保障安全和稳定,异地多活和灾备是必须要有的。即使互联网金融的发展,银行在数据交易方面也没有性能方面的瓶颈。

银行的难点主要是数据分析上的领域发展,为了对客户精准营销,除了客户基本数据,还有客户行为数据、客户轨迹数据、客户消费数据、以及互联网金融数据包括P2P数据、小额贷款、交付交易等信用记录。外部数据要和内部数据结合起来才能满足银行风险控制和精准营销的业务需求。

银行的痛点是烟囱的开发导致系统割据和数据分裂,部门系统之间的数据不能有效流通,不能充分整合,并非交易高并发引起的性能瓶颈,如何简单快速获取想要的数据,数据如何统一输出提供服务。

银行内部非交易系统 ,主要是监管报送系统和主数据系统。监管报送系统是面向银行的内外部监控数据报送需求开发的银行管理系统,而主数据系统提供企业级唯一主数据入口,确保各个组织部门都 统一使用同一份数据。为了给各个部门和子公司提供实时服务的数据,对数据底座提出高性能处理能力要求。

商业银行的本质是存贷汇,资金流入进来,选择好的投资对象贷款出去,同时资金在银行之间有效流动,风险管理控制非常重要。企业的风险管控主要是 中小企业贷款风险评估、反洗钱业务分析,而客户的风险管理主要是实时欺诈分析评估、信用风险、操作风险。面对多种不同的消费信贷的需求,风险管控需要整个数据生命周期的介入,才能全方位的跟踪风险最新状态。

从组织上来看,银行机构规模大,信息传导链条长,湖仓一体的数据架构可以提高数据可用性,数据准确性、数据信任性。这也是银行为什么选择湖仓一体架构的原因。

GBase湖仓方案

区别于其它厂商的湖仓方案,南大通用是散装且独立的数据库产品拼成湖仓一体解决方案。

数据存储和数据计算特别依赖以下3个产品分别是GBase 8a,独力自主研发的MPP数据库,GBase8s, 类似informix的架构,GBase 8c,基于openGauss基础上的分布式数据库产品。

image.png

多年的发展,GBase推出最新湖仓一体的GCDW解决方案

云数仓GBase Cloud Data Warehouse(简称GCDW)是GBase自主研发的一款基于行列混合存储的海量分布式大规模并行处理的弹性云原生数据仓库。满足客户企业级弹性数据仓库系统应用场景需求。GCDW有两个核心特性。

  • GCDW既支持本地部署(私有云下的计算与存储分离模式)也支持云上部署,具备弹性资源扩展能力,用户可以根据自身的需要随时弹性扩展计算单元或者存储单元。
  • GCDW在云上提供SaaS能力,为客户提供企业级弹性数据仓库系统,让用户能够在云中更轻松地设置、操作。

image.png

云原生的湖仓一体化解决方案我们看到 GBase 8a,GBase 8a是有大量银行案例实践经验的数据产品,GBase 8a Cluster是面 向大数据分析类应用领域的国产数据库,用于 满足数据密集型日益增加的海量数据批量处理需求,可作为数据仓库、商业智能和决策系统的数据底座。GBase 8a Cluster在我国金融行业的应用案例主要是中国农业银行数据仓库,包括一个100多节点的数据仓库,以及两套28节点的数据挖掘集群。

数据分析大杀器GBase 8a

GBase 8a是南大通用公司面向海量数据分析型应用领域,以列存储、压缩和智能索引技术为基础自主研发的一款性能极高的数据库产品,具有满足各个数据密集型行业日益增大的数据分析、数据挖掘、数据备份和即时查询等需求的能力。GBase 8a符合SQL92标准,遵循ODBC、JDBC、ADO.NET等接口规范,提供了完备的数据存储和数据管理功能。

列存储
面对海量数据分析的I/O瓶颈,GBase 8a把二维表中的数据按列的方式物理存储于磁盘,其优势体现在以下几个方面:仅读取查询列的数据,提高I/O的效率,提高了查询性能;高压缩比,采用多种压缩技术,减少存储数据所需的空间,可以将所用空间减少很多,节省了存储的开销;当数据库的数据大小与数据库服务器内存大小之比达到或超过2:1(典型的大型系统配置值)时,列存的I/O优势显得更加明显;GBase 8a分析型数据库的列存储格式将每列数据再细分为“数据包”,这样可以达到很高的可扩展性。
高效的透明压缩
在GBase 8a数据库中,由于每列数据按包存储),每个数据包内都是同构数据,内容相关性和数据相似性很高,这使得GBase 8a更易于实现压缩,压缩空间通常能节省很多,这能够在磁盘I/O和Cache I/O上同时提升数据库的性能,使GBase 8a在某些场景下的运算性能比传统数据库快100倍以上。
索引技术
索引技术包括智能索引和哈希索引两种,其中智能索引突破了传统基于行存储的索引技术的局限性,具有极强的可扩展性,是支撑超大型数据库管理系统的关键技术之一;哈希索引是基于每一条记录建立的细粒度索引,在用户进行等值精确查询时可以有效提升性能。
并行技术
GBase 8a实现了自动高效的并行SQL执行计划,充分利用多核CPU资源并行处理海量数据。同时GBase 8a具有智能的算法适配功能,针对不同的数据分布及特征会智能地选择不同算法进行处理。GBase 8a支持双向并行查询,能够进一步提高查询性能。

GBase 8a的纵向并行将同一任务拆分成若干个线程,交给不同的CPU核并行执行,充分发挥了多核的优势。对于横向并行,前一个任务组(“扫描”)将中间结果不断传送给后一个组(“关联”),后一个组在前一个组启动后很快就可以启动操作,前一个组和后一个组之间形成一个横向的“管道操作”。
GBase 8a已在很多数据库功能上实现了高效的并行,如INSERT、INSERT…SELECT、GROUP BY、JOIN、SORT、扫描数据、投影物化等。
高性能数据加载
GBase 8a的列存储、多线程的双向并行加载策略以及特有的数据分块装载算法为快速的批量加载提供了强大的技术保证,并且可以让用户在数据加载完成后马上开始使用数据,无须再消耗额外的手工创建索引的时间成本,大大缩短了数据准备的时间。高性能数据加载。

内存管理
GBase 8a的内存模块将数据包、大块内存、临时内存、加载内存等进行分类管理,并控制锁分离,以获取良好的并发效率。内存模块提供内部查错机制进行缓冲区上、下限检查,避免GBase 8a因占用系统内存异常而被操作系统进程强制终止。

GBase 8a案例

目前GBase 8a已经构建多个重要领域大型数据仓库 :用户覆盖 34 个国家,国内 32 个省级行政区节点数 >30000 个,总数据量 >300PB,金融、电信、政企、安全、JD等
关键领域广泛应用 :

  • 银行 : 中国农业银行总行大数据平台,3000+节点、30PB数据,稳定运行超过3200天;中国银行总行+1 1 个省分行数据集市,1 500+节点,40PB数据;中国人民银行某监测分析系统,1 20节点、600TB ;招商银行审计平台、多个数据集市,200节点,3PB数据。
  • 保险 : 中国人保财险(PICC)客户集市,300节点,3.4PB数据,涵盖车险、财险等主要客户相关业务数据分
    析。
  • 电信 : 中国移动集团集中经分系统,3000+节点、30PB数据,深度分析全国31 个省的业务数据;中国移动全国22个省公司的综合经分系统,1 500+节点,20+PB数据,其中山东、浙江、北京、河北、云南、内蒙移动等超过PB(1 PB-1 0PB)的省份有6个,GBase支持超过PB级的案例最多。
  • 电力 : 国家电网全业务中心,200+节点,2PB数据。
  • 政务 : 海关总署数据仓库,1 1 0节点、21 4TB数据,支撑信息资源共享和决策支持。

为什么是GBase8a,同类产品有greeplum、hawq、impala、clickhouse等,为什么央企、国企都选了Gbase 8a,除了gbase 8a具有高性能、高可用、能够支撑海量数据、简单易用、兼容性高的特点,最重要的一个原因,gbase 8a是国产独立研发,完全自主可控,安全更让人放心

如果你对GBase 有了兴趣,点击以下链接

GBase应用开发实践入门附代码

https://www.modb.pro/db/625836

最后修改时间:2023-05-20 01:08:31
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

文章被以下合辑收录

评论