暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据管理平台项目数据血缘 方案说明

原创 Oklll 2022-10-31
837

1     概述    2

1.1     本文主要目的... 2

1.2     术语与缩写解释... 2

2     系统关系    3

2.1     日志数据同步... 3

2.2     分布式数据计算/数据存储... 3

2.3     调用血缘展现... 3

3     架构    4

3.1     数据源层... 4

3.2     大数据平台 (Hadoop). 4

3.3     知识图谱服务层... 5

3.4     应用层... 5

3.5     前端展示层... 5

4     血缘解析    5

4.1     输入... 6

4.2     输出... 6


 

1    概述

1.1    本文主要目的

本文旨在说明数据管理平台系统中数据血缘的实现方案,及与他系统关系等。

1.2    术语与缩写解释

日志数据:包含SQL信息、用于血缘解析的日志文件

数据血缘:数管平台的数据血缘功能模块

2    系统关系

2.1    日志数据同步

定期获取其他业务系统的日志数据并存放至大数据平台,供血缘解析使用。建议线下收集后统一放于指定路径,由同步处理定期同步。

2.2    分布式数据计算/数据存储

读取日志数据,执行血缘解析、数据ETL、数据入图等处理,处理结果写入大数据平台。

2.3    调用血缘展现

通过数据平台功能菜单或表结构详情调用数据血缘前端展现层,以图谱方式展现数据血缘关系。

3    架构

3.1    数据源层

数据血缘的输入数据来源于外部系统产生的日志数据。

3.2    大数据平台 (Hadoop)

数据血缘依赖大数据平台的存储和计算资源,主要组件列表如下

Hadoop环境依赖

版本

hbase

1.0.1+

phoenix

4.13

elasticsearch

5.0.2/5.4.2/6.1.3/6.4.3/6.7.1

spark

2.0+

hive

1.1.0

Hadoop(hdfs&yarn)

2.7.x

zookeeper

3.4.5

3.3    知识图谱服务层

包括血缘解析、数据ETL、批量计算、血缘数据入图等处理,支持图存储、图查询和图挖掘。该层是数据血缘的核心服务层,支撑应用层各种应用。

3.4    应用层

主要由全图血缘、单点血缘和基于血缘数据的分析应用组成。全图血缘以全局视野向用户呈现生产环境下,项目、数据库、表和字段等每种级别的血缘关系。单点血缘帮助用户定位某一表或字段,方便查看表或字段的上下5层血缘关系。

3.5    前端展示层

主要工作包括:

1、基于图的可视化技术,以图谱方式展现血缘关系

2、与数据管理平台集成

4    血缘解析

利用血缘解析工具解析SQL获取主客体实体和关系。支持GP、TD、Oracle等数据库。以GP为例,输入输出样例如下。

 

4.1   输入

4.2    输出

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论