数据管理平台项目数据血缘方案说明

原创 Oklll 2022-10-31

838

1 概述 2

1.1 本文主要目的... 2

1.2 术语与缩写解释... 2

2 系统关系 3

2.1 日志数据同步... 3

2.2 分布式数据计算/数据存储... 3

2.3 调用血缘展现... 3

3 架构 4

3.1 数据源层... 4

3.2 大数据平台 (Hadoop). 4

1 概述

1.1 本文主要目的

本文旨在说明数据管理平台系统中数据血缘的实现方案，及与他系统关系等。

1.2 术语与缩写解释

日志数据：包含SQL信息、用于血缘解析的日志文件

数据血缘：数管平台的数据血缘功能模块

2 系统关系

2.1 日志数据同步

定期获取其他业务系统的日志数据并存放至大数据平台，供血缘解析使用。建议线下收集后统一放于指定路径，由同步处理定期同步。

2.2 分布式数据计算/数据存储

读取日志数据，执行血缘解析、数据ETL、数据入图等处理，处理结果写入大数据平台。

2.3 调用血缘展现

通过数据平台功能菜单或表结构详情调用数据血缘前端展现层，以图谱方式展现数据血缘关系。

3 架构

3.1 数据源层

数据血缘的输入数据来源于外部系统产生的日志数据。

3.2 大数据平台 (Hadoop)

数据血缘依赖大数据平台的存储和计算资源，主要组件列表如下

Hadoop环境依赖	版本
hbase	1.0.1+
phoenix	4.13
elasticsearch	5.0.2/5.4.2/6.1.3/6.4.3/6.7.1
spark	2.0+
hive	1.1.0
Hadoop(hdfs&yarn)	2.7.x
zookeeper	3.4.5

3.3 知识图谱服务层

包括血缘解析、数据ETL、批量计算、血缘数据入图等处理，支持图存储、图查询和图挖掘。该层是数据血缘的核心服务层，支撑应用层各种应用。

3.4 应用层

主要由全图血缘、单点血缘和基于血缘数据的分析应用组成。全图血缘以全局视野向用户呈现生产环境下，项目、数据库、表和字段等每种级别的血缘关系。单点血缘帮助用户定位某一表或字段，方便查看表或字段的上下5层血缘关系。

3.5 前端展示层

主要工作包括：

1、基于图的可视化技术，以图谱方式展现血缘关系

2、与数据管理平台集成

4 血缘解析

利用血缘解析工具解析SQL获取主客体实体和关系。支持GP、TD、Oracle等数据库。以GP为例，输入输出样例如下。

4.1 输入

4.2 输出

数据血缘

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者

数据管理平台项目数据血缘 方案说明

1 概述

评论

数据管理平台项目数据血缘方案说明