暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

基于元数据的数据质量实现与应用

数通畅联 2022-06-03
493

科技飞速发展的时代,企业信息化建设会越来越完善,越来越体系化,当今数据时代背景下更加强调、重视数据的价值,以数据说话,通过数据为企业提升渠道转化率、改善企业产品、实现精准运营,为企业打造自助模式的数据分析成果,以数据驱动决策

DAP数据分析平台是一款专门用于企业大数据平台构建的产品,它可以对从业务系统或者ODS中抽取来的海量数据进行高效存储、计算、分析并处理。最终将有价值的数据以可视化的形式进行展现,能够有效地帮助企业清晰地分析优劣势,从而调整企业策略,加快企业的信息化发展,提升企业的整体竞争力。

整体介绍

DAP数据分析平台主要是为满足企业数据分析的需要而开发的一款产品,不同于一般的BI平台,DAP数据分析平台更侧重数据的聚合。平台预置有数据源注册、ODS注册与管理、数仓配置与数据聚合,从而实现企业业务数据的统一,构建企业统一的、标准的、完整的数据仓库,为数据展现、数据分析、数据报表以及外部系统数据交互提供支持。

1产品方案

首先介绍一下DAP的数据中台方案组合框架:

数据中台方案方案主要是DAP数据分析平台通过与ESB应用集成平台结合组成的,使用场景主要是通过配置调度任务、通过执行调度任务调用ESB数据同步流程,实现数据的采集、抽取、转换、传输、调度等操作,基础数据为DAP提供同源并标准的、一致的数据保障,数据分析是分析数据的准确性,然后通过Portal门户集成平台展现给客户。

2产品说明

数据分析平台是一款能够高效存储、计算、分析并处理海量数据的数据分析产品,能够真实、准确、清晰、有效地将企事业内部及行业外部相关数据进行可视化展现,帮助企事业提升行业洞察力,加强决策力,从而提升整体竞争力。

数据分析平台功能有:

1.数据来源(应用系统定义、数据源头配置、ODS数据定义)数仓模型。

2.数仓模型(业务主题、维度配置、事实配置、模型配置、指标管理)。

3.数据调度(规则校验、调度资源(同步资源、加工资源)、调度任务、调度日志(同步日志、加工日志)、质量日志、通知日志)。

4.分析模型(数据集配置、立方体配置、业务类报表、多维度分析)。

5.展现模型(导航管理、组件管理、展现主题、装饰管理)。

6.数据服务(接收服务、查询服务、统计服务、指标服务、业务服务)

7.算法模型(算法配置、标签管理、算法日志)。

8.统计分析(数据地图、质量分析、血缘分析、影响分析)。

9.系统管理(组织管理、角色管理、人员管理、功能管理、编码类型、编码管理、系统日志)。

3功能介绍

首先配置所需要的业务主题,接下来通过调研的指标从来源系统中找需要的库表到ODS中间库,然后从ODS层同步数据到数仓基础事实表进行数据清洗,基于基础事实表进行数据的横向或纵向数据加工汇总至汇总事实表,通过以上步骤进行数据治理和清洗使分析指标更加准确

通过DAP治理数据进行数据应用,DAP数据应用、数据展现是通过组件应用、报表应用、服务应用进行展现的。

场景功能

DAP中ODS到数仓是需要进行数据质量校验的,这样才能保证数据的准确性,保证数据在数仓中是准确、完整的,这样数据应用才能发挥价值。

1场景介绍

本段内容主要介绍元数据从何而来,到何而去和元数据定义的过程。从业务系统到ODS是定义表的过程,要找到合适的表、需要治理的表、数仓需要的表进行ODS中间库定义。ODS到数仓主要分为到维度表和到基础事实表,主要是对字段的筛选,是对数据的一次清洗、质量检测的过程。在数据一致、准确后就可以进行数据汇总计算了,这就是汇总事实表创建过程。

2数据治理

元数据治理是先从业务系统到ODS,再从ODS到数仓(维度表、基础事实表),然后对数据进行汇总加工(汇总事实表)后,通过数据模型自动生成数据调度任务,通过调度结合ESB进行数据抽取、清洗,从而构建企业统一的、标准的、完整的数据仓库的过程。

3质量校验

综上所述ODS主要是对业务系统表的筛选,把需要表同步到ODS中,字段和数据都保持一致。而ODS到数仓需要字段的筛选、转换,而且数据质量也需要保证,因为要通过数仓的数据进行应用处理,所以需要对数仓里的数据进行质量校验。

数据治理

综上所述元数据治理是数据表、字段、数据注册、定义、清洗的过程,是由ODS定义、维度表配置、事实表配置这3个功能实现的,下面分别介绍这三个功能。

1ODS定义

1.ODS定义:

(1)首先配置来源的应用定义:

(2)数据库源头配置:

(3)数据选择对应的应用系统:

(4)ODS定义配置:这样注册ODS时候就可以对应系统上添加:

(5)选择表配置如下:

2维表配置

1.维度表配置:

(1)列表页面:对维度表进行增删改查操作:

(2)编辑页面:选择来源表(支持多表),配置层级策略指标所需要的配置。

(3)选择表后进行导入字段,添加字段只能选择来源表的字段或者自己手动添加。

3事实配置

1.事实表配置:

(1)列表页面:对维度表进行增删改查操作:

(2)编辑页面:选择来源表(支持多表),来源表可以选择维度表,也可以选择事实表。

(3)选择表后进行导入字段,添加字段只能选择来源表的字段或者自己手动添加。

质量校验

因为要通过数仓的数据进行应用处理,所以需要对数仓里的数据进行质量校验,质量校验分为ODS到维度表质量校验、ODS到事实表质量校验,通过校验接口把校验信息插入到质量日志中,对数仓的数据进行清洗,从而提高数据的准确性。

1维度校验

配置校验规则:

维度表字段配置关联校验规则:

2事实校验

配置校验规则:

事实表只有基础事实表才能配置校验规则,配置方式如下:

3质量日志

新增质量日志中接口地址:

/dap/services/QualityLogsService/rest/create-logs

入参为:jsonObject

入参格式如下:

质量日志:

数据应用

通过上述元数据治理和质量检测的过程帮企业完成数仓建设,数仓数据通过组件看板、报表展现、数据服务功能,使客户了解公司动态,从而提升企业的数据价值。

1组件应用

通过组件管理配置对应的组件(柱形图、饼图、折线图等)html和js引擎、默认值等,然后在实现类中选择组件结合数据集、立方体、指标数据配置出可视化图表。

1.图表组件

(1)组件管理页面配置:

(2)组件实例配置:组件需要的字段配置、过滤条件、穿透配置。

2报表应用

1.业务报表:业务报表是选择数据集数据进行配置的多表头表格。

(1)列表页面:对业务报表增删改查:

(2)配置页面:选择数据集配置表头信息,支持多表头配置,表头冻结、表头合并、数据行合并、表头上移下移。

(3)预览功能:

2.多维分析:多维分析是通过立方体进行配置多维度多表头的表格。

(1)多维列表页面:

(2)多维编辑页面:双击弹出编辑页面进行配置多维实例。

先设置该多维分析实例的条件、量度、行表头以及列表头,具体的设置页面如下:

(4)预览功能配置:导航选择多维分析组件,然后选择组件实例:

3服务应用

1.查询服务:

(1)数据集中配置后,点击发布,就能看到数据接口。

(2)发布后在查询服务就可以显示数据服务:

2.统计服务:

(1)在立方体中点击发布:

(2)在统计服务生成对应服务:

3.业务服务:

(1)在数据服务添加业务服务功能。

(2)列表页面:列表显示对象名称、对象编码、对象类型、来源名称、是否发布、创建人、创建时间。

(3)新增详情页面:

(4)单体类型下面配置方式:选择对象类型为单条,然后选择对象来源类型、对象来源、对象格式,选择完来源方式点击保存自动生成对应元数据,选择查询条件后支持编辑。

(5)查询条件编辑页面:

(6)树形对象配置如下:

(7)配置标识节点和父节点字段和查询条件。

(8)主从对象模型配置如下:

(9)主从表,主表配置单独表单,选择完主表后,下面从表列表,从表的主表是可以选择的。

(10)点击新增,新增从表数据:从表编辑页面,可以选择主表,主表可以选择主表也可以选择创建好的从表。

(11)元素据配置页面:支持删除、修改目标映射编码。

(12)元数据支持添加,可以通过添加配置编辑从表字段信息。

(13)元数据页面目标列表信息显示:字段、显示字段(可修改)、显示类型(String、object等)。

4.指标服务:

(1)在指标实例管理里点击发布:

(2)数据服务中指标服务功能会多出一条该指标服务数据,点击数据预览直接查询服务。

心得总结

无论是现在的互联网企业还是传统型企业,都需要数据分析,数据分析的目的是将隐藏在一大批看起来杂乱无章的数据中的信息集中和提炼出来,从而找出所研究对象的内在规律。在实际应用中,数据分析可以帮助人们做出正确的判断,以便采取适当的行动。数据分析是有组织有目的地收集数据、分析数据,使之成为信息的过程。

1产品作用

数据分析也就是说必须要以数据为先,分析为后。数据分析是对收集来的大量的第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。数据分析是为了提取有用的信息和得出正确的结论而对数据加以详细研究和概括总结的过程。而本文所说的数据分析平台就大大强化了数据治理效果,加强数据应用,无论数据服务功能还是数据可视化展现功能都是提升企业数据价值的表现

2产品应用

数据中台集成业务系统数据,一般情况展现层的数据不是本身系统的数据,不能去业务系统抽取,那样抽取的数据性能会变差,因为业务系统数据已经到数据中台中了,而且是治理后的标准数据,所以应用数据从数据中台中获取,而获取的途径就是DAP数据服务

而数据应用另一种可视化展现是对数据的一种应用方式,通过数据可视化展现,可以提高业务组织查找所需信息的能力,并且通过数据可视化能够比其他公司更高效地完成这些工作。

3产品发展

DAP数据平台是数据中台的一部分,有了它就可以提升企业的业务数据价值。从数据来源中梳理企业的业务数据,把可以提升企业业务价值的相关表放到中间库中,通过数据治理整合汇总这些数据,把这些数据变成完整的可观察的数据,从而把数据展现出来

未来DAP可以通过数据检索搜索到不同主题、不同类型的业务数据(比如:文档类的数据),数仓数据通过机器学习进行计算,通过计算让客户了解企业信息,了解企业发展趋势、未来走向,通过数据报告配置出企业会议所需的PPT演讲报告,通过这些功能进一步提高企业的数据价值。

推荐阅读

文章转载自数通畅联,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论