暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

使用QianBase MT+QianBase MPP快速构建实时数仓解决方案

354

随着企业的不断发展,IT系统积累的业务数据与日俱增,企业通过数据分析手段辅助管理决策、驱动业务增长的需求愈发强烈。然而各业务系统的数据只存在于对应的数据库或是直接存放于本地磁盘文件中,形成了一个个信息孤岛,导致管理者无法快速获知企业的经营全貌,同时,海量数据的压力与人工处理效率低下、指标口径不一致等因素,严重影响了管理者的判断时机与决策准确性。因此,数据仓库成为企业走出数据分析困境的解决方案。构建企业级数据仓库,通常需要使用数据集成技术把不同数据源数据汇聚在一起并进行统一的数据分析,这意味着数据集成是构建数据仓库的一条必经之路,然而现实场景中企业在数据集成过程中往往面临着诸多棘手的问题。


1.数据获取的时效性不足。传统数据集成技术大多采用T+1的方式同步到数据仓库中,时效性较差,无法满足实时数据分析的要求。


2.数据源众多操作难度大。传统数据集成技术一般只能应对单一数据源的集成,无法支持多个异构数据源的同步工作。而且一旦源头发现数据模型的变更,将导致数据同步失败,只能手工维护后重新同步。


3.无法同时支持全量增量。传统数据集成技术或者只能支持全量同步,或者只能实现增量同步。全量与增量同步一般需要分开部署实现,无法进行统一管理和自动切换。


4.没有统一集成调度平台。传统数据集成技术大多缺少统一的任务调度及管理能力,如任务监控、失败重试、断点续传、告警通知等。


01

QianBase MT可解决传统数据集成问题

QianBase MT(Migration Tool)是易鲸捷自主研发的一款数据同步工具,支持将主流的数据库以全量或增量的方式迁移到QianBase数据库系列(QianBase TP/MPP/xTP)产品中。相比于业内主流开源的数据集成工具如Kettle、DataX等,其具有多方面的优势,如传输性能高、支持多种异构数据源、可视化运维监控等特点。


图-QianBase MT数据流图


QianBase MT的具体优势如下


1.支持全量+增量数据同步能力


MT支持针对多种不同的数据源进行全量同步以及增量同步。在迁移粒度上,支持按整库迁移或按表级别迁移。在迁移对象上,除了能够支持迁移表结构和数据之外,同时也支持其他数据库对象包括视图、序列、主键、外键、索引、约束、存储过程、自定义函数、包及触发器。


针对大数据量的历史数据迁移,可以直接采用全量数据同步方式,通过设置合理的迁移线程数、表并发数以及批量提交数,实现高效的数据同步性能。以某银行从Oracle数据库同步到6节点的QianBase MPP虚拟机集群测试为例,迁移效率可达到2.5TB/小时。


而对于增量同步,MT提供了两种方式。一种是基于SQL+WHERE条件的方式,当业务表中有诸如数据写入时间戳字段的时候,可以利用此字段作为条件过滤而进行增量数据迁移,可以实现天级、小时级甚至分钟级的迁移同步。另一种则是通过直接解析源数据库的增量日志进行准实时同步,这种方式往往可以将数据同步延迟降低到秒级别。


2.支持多种异构数据源


MT支持多种异构数据源的迁移,目前能够支持的源数据库包括:Oracle、SQL Server、MySQL、PostgreSQL、DB2,同时MT也能直接加载文本文件以及从Kafka中进行增量读取并迁移。


3.可视化一键迁移服务


MT支持两种形式的安装部署,基于C/S架构以及基于B/S架构。


针对C/S架构,只需要直接解压相应的安装包,并执行可执行文件即可打开MT迁移工具,如下图所示:


图-C/S架构的MT迁移界面


之后可以根据步骤提示,依次配置源端与目标连接、选择迁移对象、配置迁移参数,完成后便可以进行正式的迁移过程。如果迁移后发现有报错,可以通过排序过滤出异常的对象,修复问题后重新迁移。



图-C/S架构的MT迁移过程


B/S架构的MT需要启动一个后台服务,之后所有的操作便可以直接在WEB终端进行操作。同时,我们可以直接通过浏览器界面来查看迁移统计汇总情况以及每个对象的迁移细节,如迁移数据量、迁移耗时等。



图-B/S架构的MT迁移展示页面


4.开放接口方便对接外部调度平台


QianBase MT提供了可供外部调度平台访问的API接口,外部程序只需要通过传递相应的参数并调用MT的接口便可以轻松实现“一键迁移”服务。目前,MT提供了以下相关的API接口供调度平台调用,后续也会开发一系列更丰富的接口完善相关功能项。


图-MT提供的主要接口


方便的API接口调用,使得QianBase MT能够非常方便的与外部调度系统对接,当前我们就测试了开源调度系统海豚调度器DolphinScheduler对接MT实现数据迁移入库。


经测试,在海豚调度器界面中可以通过创建两种类型的工作流(SHELL及HTTP)来调度MT的API。SHELL方式中只需要设置相应的curl命令调度对接的HTTP接口并传递相应的参数即可完成调度工作,HTTP方式与SHELL类似,也是只需要指定HTTP地址并配置相应的请求参数即可。


图-海豚调度器配置调度MT接口


根据测试情况,目前通过海豚调度器的SHELL方式及HTTP方式均能实现对MT的调度迁移工作,并且可以自由设置定时调度任务,实现简单易用的迁移调度能力。



图-海豚调度器查看任务调度情况


02

QianBase MT+QianBase MPP

快速构建实时数仓解决方案

QianBase MPP是易鲸捷研发的一款专为海量数据分析所需的大规模数据和复杂查询功能设计的share nothing架构分布式OLAP数据库,适用场景包括企业级ODS/EDW、数据集市、BI、审计、合规、历史数据查询、大数据分析、机器学习等。


“使用QianBase MPP作为统一的数据仓库存储行内所有核心类业务系统交易数据,定时或实时抽取各系统增量数据,支撑不定时历史数据查询、分析,如查询某一客户、账户的数据在某一历史时间段内的变更过程,以及多个业务系统数据的关联统计分析。”---某农商行历史数据查询平台需求描述。


日前,使用QianBase MT+QianBase MPP的实时数仓解决方案已经在上述客户生产系统中正式运行并表现良好。


图-某农商行基于MT迁移的历史数据平台架构


该项目中的主要亮点包括以下:


1.高压缩比。相比原始数据库,采用列式存储及压缩后的数据压缩比达到17:1,大大节约了存储成本。


2.高可用能力。无论是管理节点还是数据节点,都具有冗余的能力,保证在任意节点出现故障的情况下业务仍然可以持续运行。


3.超大存储容量。采用8台数据节点服务器,支持超大单个磁盘18TB存储,总共有效存储空间达到450TB,预计可存储3.5PB原始数据量。


4.高效增量同步性能。从源库到目标库的同步性能,达到2.5TB/小时,完全满足客户需求。


5.高性能并行数据查询。2千万级别大表进行带条件过滤查询,耗时几十毫秒至百毫秒级别。


上述真实场景案例,证明QianBase MT+QianBase MPP能够真正满足企业的实时数仓要求,此案例也是一套完善的可推广可复制的案例。未来,易鲸捷也将不断深度打磨自己的产品及周边生态工具,打造一套更完善更易用的企业级实时湖仓解决方案。


图-基于QianBase MT+QianBase MPP的实时湖仓解决方案

党的二十大报告指出,教育、科技、人才是全面建设社会主义现代化国家的基础性、战略性支撑。必须坚持科技是第一生产力、人才是第一资源、创新是第一动力。加快建设网络强国和数字中国。贵州易鲸捷信息技术有限公司连日来深入学习党的二十大精神,将其贯彻至具体生产工作中,凝心聚力攻克科技技术难关,为我党实现第二个百年奋斗目标奋勇前进。


END



往期精彩回顾

易鲸捷惊艳2023数博会 分布式数据库一体机“永不停机”

易鲸捷员工回归母校,讲述数据库人生

新家新征程,一起向未来

易鲸捷简介

易鲸捷公司成立于2015年,专注于新一代融合型分布式数据库核心技术研发。公司核心团队源自天腾公司,曾创造过NonStopSQL等全球领先的数据库产品,核心技术完全自主可控。经过多年技术沉淀,易鲸捷已形成自主可控、国产可信、安全高效的三条完整分布式数据库产品线:QianBase xTP/QianBase TP/QianBase MPP,可面向不同行业应用提供完整的一站式解决方案,在金融、运营商、智能制造、5G等重点行业获得广泛应用。

网址www.esgyn.cn


贵州易鲸捷信息技术有限公司

地址:贵阳市高新区长岭南路160号高科1号C座24楼

北京易鲸捷信息技术有限公司

地址:北京市朝阳区大屯街道北苑路万科时代中心奥林A座10层

上海易鲸捷信息技术有限公司

地址:上海市浦东新区金科路2889弄1号长泰广场A座6层03单元

北京010-84983409

上海021-50822117

邮箱info@esgyn.cn

网址www.esgyn.cn




文章转载自易鲸捷大数据库,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论