
东方国信数据治理平台以标准规范体系和元数据管控体系为基石,有力的支撑了客户的数据治理业务需求。全图形化数据开发自动生成脚本和任务调度方式,彻底解决了手写脚本和手画流程这种费力易错的低效模式,提升客户研发效率和开发过程规范化的能力。本文将围绕传统数据仓库难题介绍东方国信数据慧治平台的数据治理之道。
传统数据仓库难题
传统大数据仓库的建设多为手工作坊模式,通过线下手动建表,手工编写存储过程和加脚本的方式,实现数据生产加工;但随着数据中心业务场景的不断丰富,以及数据分析对数据时效性要求的明显提高,如何将大批量的脚本规范化管理起来,从而实现数据中心大规模任务调度的稳定运行,保证数据时效性,成为传统数据仓库的难题。
东方国信数据慧治平台治理之道
东方国信DIG数据慧治平台将原有数据仓库的存储过程、SHEEL脚本通过云化ETL迁移工具自动转化为图形化的统一的数据加工逻辑,根据数据流向自动解析成为加工任务事件,形成数据加工流程,极大降低了现有数据仓库迁移时间和人力成本。迁移后数据生产加工时长显著缩短,充分保障数据时效性。
某运营商迁移上线后生产加工时间提速236分钟

1
生成备份库
在进行数仓迁移之前,需要将生产库的所有表及视图的信息,迁移到备份库中,防止迁移过程中对生产环境造成影响。
备份库资源注册及扫描
2
1、连接资源
将生产库备份完成之后,将备份库中需要连接的资源信息添加至平台,实现工具与原有数据资源的对接,以此通过数据治理平台来进行对资源的相关操作。

2、获取元数据
通过对连接成功的数据库进行资源扫描来获取数据库中表、视图的信息。可进行定时配置,实现周期性自动扫描。

3
既有脚本数据分析
通过数据分析,从原存储过程中抽取声明变量,确定周期类型、规范变量名称,根据分析结果在平台上管理批次模版,便于用户实现特定的需求,在每次执行流程时标记批次编码。

数仓加工过程平滑迁移
4
1、启动解析程序
将既有脚本统一上传到服务器指定目录,配置执行参数,平台上启动解析任务,生成映射、工作流及依赖关系。

2、查看脚本解析日志
解析任务结束后,在数据慧治平台中查看脚本解析日志,核对解析任务生成的映射、工作流及流程依赖关系是否与脚本保持一致。

5
补齐接口层采集流程
为实现接口层采集流程可视化管理,需要在映射设计中选择批量迁移映射,在设计面板中添加资源,将所需源对象批量添加至设计面板,此处的源对象支持数据库表、FTP文件或HDFS文件。

可根据数据更新周期,设置采集流程定时执行或周期执行。通过事件触发的方式实现数据接入与数据加工流程的无缝衔接,缩减任务运行时长。

全流程测试启动执行
6
模拟真实环境的数据处理流程,调整定时启动的时间,测试事件触发调度能否顺利运行,验证脚本解析得到的流程节点逻辑是否正确。测试执行时没有数据流动,只验证流程本身。

7
数据核查后正式上线
数据慧治提供数据核查,可新增核查任务根据操作指引添加核查对象,设置核查范围及容错率,为核查任务配置执行计划。验证备份库与目标库中的结果数据是否一致。验证成功后,数据慧治平台即可正式投入生产使用。

数据标准化
8
1、迭代形成标准字典
通过平台智能识别功能分析平台中已有字段,形成统一的标准字典。

2、增强生产库的可读性
通过标准字典与生产库中的表建进行匹配关联,为匹配上的对象自动添加注释,增强数据中心的可读性。

3、快速提升数据质量
通过为标准字段添加稽核规则,使稽核规则在生产库中快速覆盖,提升数据中心数据质量。






