1 概述
1.1
本文主要目的
本文旨在说明数据管理平台系统中数据血缘的实现方案,及与他系统关系等。
1.2
术语与缩写解释
日志数据:包含SQL信息、用于血缘解析的日志文件
数据血缘:数管平台的数据血缘功能模块
2
系统关系

2.1
日志数据同步
定期获取其他业务系统的日志数据并存放至大数据平台,供血缘解析使用。建议线下收集后统一放于指定路径,由同步处理定期同步。
2.2 分布式数据计算/数据存储
读取日志数据,执行血缘解析、数据ETL、数据入图等处理,处理结果写入大数据平台。
2.3
调用血缘展现
通过数据平台功能菜单或表结构详情调用数据血缘前端展现层,以图谱方式展现数据血缘关系。
3
架构

3.1 数据源层
3.2 大数据平台 (Hadoop)
数据血缘依赖大数据平台的存储和计算资源,主要组件列表如下
|
Hadoop环境依赖 |
版本 |
|
hbase |
1.0.1+ |
|
phoenix |
4.13 |
|
elasticsearch |
5.0.2/5.4.2/6.1.3/6.4.3/6.7.1 |
|
spark |
2.0+ |
|
hive |
1.1.0 |
|
Hadoop(hdfs&yarn) |
2.7.x |
|
zookeeper |
3.4.5 |
3.3 知识图谱服务层
包括血缘解析、数据ETL、批量计算、血缘数据入图等处理,支持图存储、图查询和图挖掘。该层是数据血缘的核心服务层,支撑应用层各种应用。
3.4 应用层
主要由全图血缘、单点血缘和基于血缘数据的分析应用组成。全图血缘以全局视野向用户呈现生产环境下,项目、数据库、表和字段等每种级别的血缘关系。单点血缘帮助用户定位某一表或字段,方便查看表或字段的上下5层血缘关系。
3.5 前端展示层
主要工作包括:
1、基于图的可视化技术,以图谱方式展现血缘关系
2、与数据管理平台集成
4 血缘解析
利用血缘解析工具解析SQL获取主客体实体和关系。支持GP、TD、Oracle等数据库。以GP为例,输入输出样例如下。
4.1
输入

4.2
输出





