由于发展的原因,不少金融机构都已建成了多个数据平台,迫切需要打破传统的数据架构边界,实现数据的集中管理、整合和分析。
而湖仓一体就是指将金融机构内部所有的数据仓库和平台整合到一个统一的数据湖中,以实现数据的集中管理和统一分析。
显然,实现湖仓一体必然面临多种挑战,如整合数据格式、标准、结构等存在差异的数据;要对数据进行清洗、验证,以确保数据的准确性和完整性;数据安全强化,防止数据泄露和滥用;数据分析系统建设等。
某头部农商银行基于星环大数据基础平台TDH和分布式分析型数据库ArgoDB的湖仓一体解决方案,实现了多数据平台合一,进行数据资产管理,降低了原有同质化的数据系统运维开发成本和数据冗余,实现了数据的平滑迁移,保证了业务正常运行。
这一真正的湖仓一体应用案例将数据仓库和数据湖紧密结合,通过整合、整理和转化该银行的各种数据,实现数据的灵活性、一体化视图以及弹性和扩展性,为该银行的数据管理和分析能力提升带来全新的体验。




1.多数据平台整合面临重重挑战
某头部农商行在引入大数据平台后,实际存在三个数据平台,分别是小数据平台、大数据平台、数据仓库。
其中,小数据平台从核心、信贷管理、国际结算等源系统采集数据,通过整合和加工,计算相应的指标,供给客户关系管理系统和ECIF系统使用。
而数据仓库接入业务系统数据,在基础层基于E-R关系模型进行规范化组织管理;基于众多业务数据的整理,提出共性信息项,在汇总层从银行业通用角度划分主题,涉及客户、存款、贷款、银行卡等多个主题共几十多张关键汇总表的指标;最终向管理会计、反洗钱等下游多个系统进行供数。
这些平台间同质化问题严重,运维成本高,平台间功能重复,数据冗余,多数据平台共存,已制约了该农商行的数据管理和使用。
根据银行IT架构优化要求,为减少数据冗余,降低同质化数据系统的开发运维成本,该银行采用单一大数据平台架构的方案,迁移数据仓库、小数据平台到大数据平台,同时以单一的大数据平台规划建设路径,推进数据分析利用系统建设,更好支持银行智能化、数字化应用建设。

项目建设中遇到了很多问题与挑战,具体包括:
·数据统一复杂度高:数据迁移内容庞杂,作业量大、技术复杂、不一致的数据架构、不一致的设计标准等。
·数据架构复杂度高:数据区/层多,数据链路错综复杂。
·设计开发难度大:文档可用性较差,平台技术差异大,实施周期时间紧。
·数据迁移难点多:数据量大,依赖复杂,时间窗口限制,数据映射转换复杂。
·数据核对受限:跨平台受限,核对测试环境复杂。
·项目协同复杂:涉及多方复杂协调,上下游项目改造的沟通协调难等。

2.云原生湖仓集一体平台支持多数据平台合一
该农商行经过多轮比较后,选择星环科技,建立单一的大数据平台,实现湖仓集一体架构。
之前该头部农商行采用Teredata建设数据仓库,支持上层应用包括反洗钱、CRM、绩效、管理驾驶舱等,主要分为贴源、基础主题、汇总层、应用层等。
结合自身的产品特性,星环科技提出了基于大数据基础平台TDH与分布式分析型数据库ArgoDB产品的湖仓集一体解决方案,涵盖该头部农商行所有大数据服务需求。
星环大数据基础平台TDH实现了全行级数据的统一采集、统一存储等能力;星环分布式分析型数据库ArgoDB实现了数据仓库的快速建立,实现了数据的计算、对外服务等能力。
其中TDH由于具有较高的性价比,被用于整体方案的数据湖搭建,完成了全行级的数据汇总;而ArgoDB因为具有出色的数据处理分析能力,能够高效地完成各类用户的分析需求。
TDH采用基于自研的大数据平台架构,海量数据查询分析服务集群既可以处理结构化的数据,也可以处理非结构化、半结构化的数据,满足配置、日志、网页、音视频、社交网络等多源异构数据的加载和存储,提供数据查询、全文检索、数据离线批处理分析、交互式分析、图分析、数据挖掘、机器学习等多种数据处理模式。
ArgoDB实现了数据集市交互式分析速度的大幅度提升,ArgoDB将数据在内存或者SSD中做列式存储,辅以基于内存的执行引擎,可以完全避免I/O带来的延时,极大地提高数据扫描速度。除了列式存储加快统计分析速度,ArgoDB支持为数据字段构建分布式索引。通过智能索引技术为查询构建最佳查询方案,ArgoDB可以将SQL查询延时降低到秒级。
基于湖仓一体解决方案,实现了行内数据的统一整合,不仅可以很好地满足高计算、高存储、高负载的要求,更能够对海量的数据进行数据存储、清洗、加工、建模等,把先前无法利用的数据充分利用,提升对数据的认识,抓住机遇为客户数据平台建设做好最基础、最扎实的工作。最终湖仓一体解决方案实现了对客户业务的完美支撑,包括信用卡业务、监管报送业务、自助查询业务、历史数据查询等。



更进一步,星环科技云原生湖仓集一体平台基于统一平台满足数据湖的实时接入、数据仓库的模型架构以及数据集市的在线分析等多种需求,让业务分析师、数据科学家、数据工程师等都能够访问实时数据、历史数据、贴源数据、加工过的数据。
基于高性能存储格式Holodesk,只需一种存储格式即可同时满足湖仓集的数据接入、数仓加工和高性能数据分析,降低数据存储冗余,简化数据加工链路,提升业务时效性。同时,基于多种模型数据统一存储管理(11 种数据模型)、统一计算能力、统一接口,实现了数据跨模型的交互能力,帮助用户快速实现复杂业务,加速业务创新。




其优势包括实时入湖查询与分析、多模态数据统一管理、行列混合存储与一库多用、标准SQL与存储过程兼容、云原生资源隔离与共享、两地三中心数据同步、湖仓集统一运维管理、自主研发与信创兼容等。

3.保障项目成功实施的根基
该农商基于星环ArgoDB+TDH的湖仓一体平台,实现了多数据平台合一,进行数据资产管理,降低了原有同质化的数据系统运维开发成本和数据冗余,实现了数据的迁移,保证了业务正常运行。同时完成数据仓库汇总层关键指标表迁移,实现了数据仓库管理会计等几百个供数接口迁移,以及小数据平台下游接口迁移,为下游多个系统提供支撑,更好地支持银行智能化、数字化应用建设。

星环科技在项目实施中主要有如下优势:
大数据仓库建设方法论与专业的团队。星环科技拥有已被多个项目验证的数据仓库建设方法论。同时项目所配备的项目核心成员均有多年的数据仓库实施经验,熟悉星环科技的大数据平台产品,完全能够胜任复杂的大中型商业银行数据仓库项目的模型设计、ETL开发测试工作。
丰富的项目实施经验。星环科技拥有丰富的数据仓库和大数据平台数据架构设计经验、丰富的数据治理经验,具有多家大型银行新一代核心系统改造的项目实施经验,以及数据管控平台所需的项目经验。
专业化大数据仓库迁移/建设工具。星环科技拥有高效的平台迁移工具,具有一体化的数据仓库模型设计/SDM/脚本自动化生成和开发的工具。
原厂商产品与实施服务。星环科技更能深刻理解大数据库产品的特性,高效实施。
银行业数据模型。星环科技对金融业具有深刻理解,具有完整、全面的企业数据整合的基础——逻辑数据模型。




该农商行通过星环科技湖仓一体方案,可以实现以下优势:
数据灵活性:数据湖提供了灵活存储和处理各种类型数据的能力,而数据仓库提供了高性能和预定义的数据查询和分析能力。湖仓集一体使得企业能够根据实际需求,在数据湖和数据仓库之间进行数据转换和查询,灵活地处理和分析数据。
数据一体化视图:湖仓一体可以将不同源头和形式的数据整合到一个统一的数据视图中,为企业提供全面的、一体化的数据视图,支持更深入的数据分析和洞察。
弹性和扩展性:数据湖和数据仓库的组合使得企业可以根据数据的变化和需求的增长,进行弹性扩展和资源配置,以适应不断变化的业务需求。
星环科技凭借新一代湖仓集一体架构技术,入选IDC、Gartner、信通院等权威报告的湖仓一体代表供应商,屡获认可。目前,星环科技湖仓集一体平台已经在金融、政府、交通、邮政、医疗、能源等行业以及大型国有企业落地应用,用创新的技术帮助用户打造自主可控、满足业务未来发展需求的数字底座。




