暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

不需要水晶球就能看到数据湖仓一体是未来,三家金融企业如何逆袭成功?

231


点击上方蓝字关注我们


SPRING



数据仓库和数据湖具有明确而独特的用途。通常数据仓库根据预定义的架构存储结构化数据,以生成用于报告目的的快速查询。


数据湖存储和处理各种数据类型,包括非结构化数据,并支持高级分析、数据发现以及 AI和ML工作负载等。


最近几年,“数据湖仓一体”概念不经走红,并受到用户的欢迎,原因是整合了这两个数据世界的优点



星环科技专家介绍,其实数据湖仓一体经历了三个发展阶段:

第一代传统数据仓库(1990-2010年)。传统数据仓库业务系统存在诸多问题,如负载重,数据时效性低,数仓模型复杂,数据溯源难,数据类型单一,即只能处理结构化的数据,以及业务场景单一,仅支持报表展示、数据集市在线访问这类通过离线计算后获取到的数据结果,无法支撑机器学习场景、时序数据分析等场景。


第二代MPP+Hadoop”混合架构(2010-2020年)。Hadoop平台的出现支持了多模数据的存储和汇聚,为体现数据价值提供了基础。但是限于技术体系的不完善,需要依赖Hadoop+MPP的复杂架构,实现一些业务场景。同时单个分析引擎只适合部分应用场景,需要不同场景使用不同分析引擎,管理运维成本巨大。


第三代湖仓集一体化架构。新一代湖仓一体架构支持统一多模存储、 海量数据存储、数据分析支持,多模湖仓结合统一查询语言降低了融合分析的复杂性,支持跨数据多模态地进行融合分析。在存算上,采用存算解耦,计算资源可以动态调度,存储可以根据不同数据模态做设计。一种计算引擎就可以支持多种模型数据分析,以及多种模型数据关联分析,统一的SQL接口降低了开发难度等。



从理论上讲,数据湖仓一体消除了使用两个独立系统进行数据存储和分析的必要性,将两者集成在一起,无需在系统之间移动数据,并能够无缝地查询所有数据集。


此外,随着公司寻求利用人工智能的优势,数据湖仓一体可以为 AI 模型提供单一事实来源和更全面的数据视图。另外,数据湖仓一体还可以降低成本。


研究机构预测,从2022年到 2026年,数据湖仓一体行业预计将以25%的年复合增长率增长,是整个数据分析市场的1.7倍。合并后的市场有望成为数据分析领域最大的细分市场,超过关系数据库和非关系数据库的支出。


但是数据湖仓一体并不是那么容易获得。


数据湖仓一体是将传统数据湖的最佳元素与数据仓库的最佳元素相结合的混合体,复杂性往往大于这两种架构的复杂性之和。它们存储各种数据类型的能力是一个巨大的优势,但要使所有不同的数据都可被发现和可用是很困难的。将批处理和实时数据流结合起通常说起来容易做起来难。


同样,在处理大量且高度多样化的数据集时,快速查询性能的承诺也可能不足。很多时候,组织内的不同部门无法将其数据正确地集成到数据湖仓一体中。


像Snowflake(数据仓库的领导者)和Databricks(数据湖的领导者)这样的供应商都渴望扩展到彼此快速增长的市场,随着公司争夺AI/ML工作负载,竞争只会加剧。


在数据湖仓一体市场,自主研发的国产企业如星环科技,正以自主可控的技术、众多成功的应用案例赢得数据湖仓一体广泛的市场。


案例1:紫金农商银行Oracle和DB2,TDH+ArgoDB构建湖仓集一体的架构


紫金农商银行自成立以来,主要采用关系型数据库Oracle和DB2。随着业务的拓展和系统建设,行内数据库种类日益增多,并引入了开源的关系型数据库以及基于Hadoop的开源大数据平台。


鉴于业务发展需求,紫金农商银行于2016年开始构建大数据平台,利用星环科技的关系型分析引擎Inceptor,实现高性能的存储与计算能力,对接上层业务应用系统,满足多维数据查询、分析等需求。


随后,该行基于星环大数据基础平台TDH构建数据湖,并初步借助Inceptor TORC表的分布式事务支持特性在数据湖上完成建仓。考虑到Inceptor TORC分桶运维成本问题,以及星环分布式分析型数据库ArgoDB在批处理性能和交互式分析能力上的优势,紫金农商银行决定将TDH-Inceptor升级为ArgoDB。


此次升级在承载原有业务的同时,构建了基于ArgoDB的湖仓一体化平台,提升了原平台的综合能力和性能,既满足了现阶段业务需求,又为未来业务发展奠定了基础。


解决方案


构建统一大数据平台:基于星环科技TDH+ArgoDB构建湖仓一体化架构,整合数据仓库、ODS系统、大数据平台,统一承载多种数据类型和分析查询负载。


提升平台管理能力:通过行内统一调度平台,优化大数据平台的作业调度和管理,提升作业运行效率、数据供给时效性及系统高可用性。


规划企业级数据管控:构建紫金农商银行企业级数据管控体系及支持平台,从根源上解决各业务领域的数据问题,提升对业务发展的数据支撑能力。


特点


多模数据存储:ArgoDB支持11种主流存储模型,实现结构化、半结构化、非结构化文件的统一归集与查询。


多场景应用:基于ArgoDB构建数据仓库,开发主题模型和数据集市,满足业务数据需求;建立准实时数据区,提升数据时效性;打造自助分析平台,支持业务OLAP级数据分析。


高性能:支持业务高并发查询和批量处理,高可用部署确保节点宕机不影响数据库使用,数据查询效率快。


应用场景


驾驶舱与大屏:利用大数据平台构建移动驾驶舱和实时大屏,展示各类经营、考核、风险、营销指标。


紫金数屋:根据业务角色,定制主题页面,灵活展示各角色KPI。


金融影像平台:基于ArgoDB多模数据存储能力,构建金融影像平台,统一管理和提供数据服务。


互联网贷款:利用ArgoDB高速数据调用能力,支持客户准入、风险预警和贷后检查,实现信贷模型规则的历史数据回溯。


效果


平台性能大幅提升,数据导入性能提升30%,分析场景性能提升7倍以上,数据扫描性能提升10倍。新的大数据平台支持读写分离,支持业务高并发查询和批量跑批,并且基于高可用部署,节点宕机不影响数据库正常使用。


在扩大集群规模的同时,建设数据治理平台,实现湖仓各链路的元数据采集,打造包括数据地图、数据标准、数据资产管理、数据集成管理、数据交换管理、主数据管理等模块的数据治理工具。


基于星环科技ArgoDB建设湖仓一体的监控指标运营平台,采集和分析集群中数据库资源运行的计算、存储资源等数据,实现告警以及服务状态、用户资源等运营指标监控。



案例2:替代数仓GP,北京银行建立了新一代大数据平台


北京银行信用卡中心的历史数据存储在数仓GP中。为满足未来业务发展对数据的需求,需构建新一代数据支撑平台,实现各应用系统间数据和计算资源的共享,支持内外部数据的分析和挖掘应用。


需求


具体而言,北京银行信用卡中心的新一代数据中心的应用需求包括:批量业务需求,即基于新一代大数据平台实现数据文件查收、预处理、传输、清洗、加载及原始文件归档等功能;能接收上游系统数据并存储到数据仓库中,为下游业务系统提供分析计算接口。


此外,实时业务需求则是利用大数据平台的流处理引擎,接入行内消息平台(或构建在平台的内部消息队列后),具备后期开发实时流处理业务的能力,如实时仪表盘监控、实时报表等。


方案


根据北京银行信用卡中心的需求与大数据平台的规划,星环科技为其设计了新一代大数据平台架构方案。该架构主要包括上游系统数据源、文件处理、大数据平台和下游环节。


批量数据从上游系统数据平台数据库、贴源系统中接入到星环科技大数据基础平台TDH中的TDFS中,经星环科技关系型分析引擎Inceptor脱敏、计算后,供下游系统分析挖掘。


实时数据则从上游发卡系统接入到星环科技事件存储库Event Store消息队列中,使用星环科技实时流计算引擎Slipstream分析,并写入到星环科技宽表数据库Hyperbase中,以支持决策引擎。


星环科技大数据管理软件TDH Manager作为平台的统一管理入口,负责平台运维管理;而TDH guardian则负责平台的安全认证管理,包括组、角色、用户的权限管控和服务使用权限控制。


根据具体的业务场景,不同业务需求的数据应持久化到相应的存储引擎中。


效果


星环科技为北京银行信用卡中心建设的新一代大数据平台,在以下方面取得了成功经验:


首先,成功搭建了基础数据平台架构,结合北京银行信用卡中心的IT设施及所采购的大数据产品,处理上游系统的批量或实时数据,实现数据的计算、存储、权限控制及与上下游应用的对接。


其次,实现了数据的迁移和同步,对贴源层数据和明细汇总层数据进行初始化全量迁移及日常增量同步,并制定不同的接入方案,确保数据的准确性和完整性。


完成了实时数据模块的建设,搭建实时数据平台,对接发卡系统,实现实时数据的采集、同步和应用开发,满足业务在流式计算方面的需求。


建立了数据脱敏模块,在大数据平台的关系型分析引擎Inceptor中通过udf函数进行数据脱敏,确保敏感数据的安全性和合规性。


此外,完成了数据沙箱环境的搭建,实现沙箱环境、数据表权限控制及资源分配,为上层应用提供一个安全、可控的数据环境。


另外,基于北京银行现有的调度工具,完成了调度模块的建设,实现作业的批量开发和规范化管理,提高了工作效率和作业质量。


星环科技为北京银行信用卡中心构建的新一代大数据平台,不仅满足了用户当前和未来的发展需求,还在多个方面取得了成功经验,为银行的数字化转型提供了有力支持。



案例3:用Slipstream+ArgoDB替换Timesten+Oracle,某期货交易所风险监管实现4个统一


对敲一词最早出现在期货市场,是主力资金为了制作一种交投活泼的假象而运用的一种方法。


主力对敲主要是利用成交量制造有利于主力的股票价位,吸引散户跟进或卖出。主力经常在建仓、震仓、拉高、出货、反弹行情中运用对敲。


随着交易所监查系统的不断优化、实时监控能力的提升,期货所“对敲”的监管进一步增强,一旦发现疑似违法违规行为将及时启动排查程序。


需求


某期货所利用大数据平台不断完善监管系统。以“对敲”的监管为例,原有的监察业务构建在内存库Timesten+历史库Oracle的数据库平台上(增量与存量的数据关联)。


业务初始化时,Timesten需要从Oracle历史库中读取前两天的数据,用作告警分析的基础历史数据;


Timesten在业务处理中需承载当天增量数据的实时入库与加工,包括双开/双平数据的筛选、交易数据的聚合(使用游标)等;


对于分析出的告警内容,存储到Oracle历史库中,方便监察系统事后查看。


在当日数据留存问题上,这一方案的问题是在业务逻辑,Timesten数据库在计算过程中,为避免对已经产生告警的数据重复告警,需对已经告警的数据update。


其影响是在计算完成后,无法对产生告警的数据进行回溯,并对于同一份数据的不同告警逻辑需要重复计算。


方案


为此,星环科技基于实时流引擎Slipstream+分布式分析型数据库ArgoDB,建立了架构简单,批流一体、增量与存量直接关联、高吞吐低时延、性价比高的湖仓一体的方案。


在当日数据留存问题上,星环科技的方案基于Slipstream的流任务,读取入库的Holodesk列存表的新增数据,在流任务中对数据使用窗口函数进行分析处理,历史数据仍可存留在历史表中。


这样的执行效果是可以方便后续告警信息的追溯,以及多告警任务的数据复用。


特点


第一,批流一体。相对传统流计算模式下的“即用即弃”的处理策略,方案将实时流处理业务与批量业务相互融合。相对于Lambda架构的批量与实时的隔离处理,基于增量日志的实时数仓方案,批量业务和流处理任务融为一体(数据融合带来业务的精简)。


相对于Kappa架构的过度依赖于消息中间键缓存技术,方案仅对增量数据进行流式处理,历史数据保存在批量业务中。流批结合,统一事务管理,故障自动恢复,数据 Exactly-once。


第二,高性能,易开发。实时数据入库性能200w/s/节点,即写即用,OLAP及即席分析秒级返回结果;流批一体全SQL开发,统一SQL语法标准,兼容TD、Oracle、DB2等方言,方便业务平滑迁移。


第三,实现了四个统一。实现全流程统一管理,统一权限管控,统一监控分析,统一元数据管理。



不需要水晶球就能看到数据湖仓一体是未来。在不久的将来,它将成为与数据交互的默认方式,将规模与成本效益相结合。


同样容易预测的是,通往数据湖仓一体的路径将更具挑战性。


将组织的所有数据聚合,无论是现在还是将来,无论需要多大的规模,最佳选择都是自主研发的数据湖仓一体架构。


参考资料:


·https://www.datanami.com/2023/09/19/there-are-many-paths-to-the-data-lakehouse-choose-wisely/


·https://www.datanami.com/2024/02/06/the-data-lakehouse-is-on-the-horizon-but-its-not-smooth-sailing-yet/


·https://mp.weixin.qq.com/s/dxTo3a8P8dSfX6E18REgtQ


·https://mp.weixin.qq.com/s/9utDQe3vx2rpOGm-1F4gag



相关文章


·创新引领应用案例与国产化替代系列时序数据库革新,某运营商破解国产替代之路!看TimeLyre如何平滑接力InfluxDB,铸就自主可控新里程碑


·创新引领应用案例与国产化替代系列开源Elasticsearch or Opensearch之争如火如荼,Scope国产替代成本亲民,政务应用效果显著解燃眉之急!


·创新引领应用案例与国产化替代系列革命性转变:MariaDB替代MySQL理想破灭,MySQL 5.7退役引发轰动,替代开源数据库还需看国产数据库崛起


·创新引领应用案例与国产化替代系列设备时序数据、消费者行为图数据、交易关系型数据···建设高效稳健大数据平台,某烟草企业实现多模式数据的深度价值变现


·创新引领应用案例与国产化替代系列许可变更、服务改变、安全威胁和成本增加、性能难以提升···一家航空公司用国产化替代一招解决开源大数据CDH所有烦恼!


·创新引领应用案例与国产化替代系列:打破数据架构边界,实现数据集中管理和分析!这家头部农商行湖仓一体做到了!









END



文章转载自Hadoop大数据应用,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论