导读:在数据开发和数仓建设过程中,数据治理落地和提升数据质量的重要性逐渐凸显,本文将从货拉拉的数据治理实践出发,分享货拉拉在数据治理体系构建、数据质量平台建设、元数据平台建设方面的实践。
今天的分享会围绕以下三个话题展开:
货拉拉数据治理体系
数据质量平台建设实践
元数据平台建设实践
货拉拉数据治理体系


组织保障:明确成员角色,明确职责分工;我们成立了存储治理小组、计算治理小组,以及稳定性保障小组。 制度建设:制定标准流程,保证落实执行;如我们制定了大数据接入规范、数据开发规范、数据模型规范,这些都是需要长期推广和落地的过程。 项目落地:开展专项治理动作,比如存储治理、计算治理等;实践证明专项治理的效果比较明显,但问题是比较耗时耗力;不是长效机制,是一种运动式的治理,需要把能力产品化,让数据责任方自助式治理,驱动自主治理。 平台支撑:研发支撑系统,提质增效。

数据地图主要提供找数据和帮助用户理解数据的能力。 数据血缘分析主要是在数据链路出现问题的时候,帮助排查定位问题。 数据模型管理,提供规范落地能力:把所有正式表的建表收归到数据模型管理平台。这样的好处是,如数据安全等级、数据生命周期都会有设置,防止数据出现无序增长的趋势。 成本管控平台,它的作用是度量当前数据资源有哪些,资源消耗是怎样的,每天花了多少钱。 辅助治理措施:冷数据归档、数据生命周期管理能力。 成本运营机制:可以让用户自驱地做成本运营,不用做保姆式的人治。 数据资产管理:主要提供数据目录管理、数据标准管理,供评估数据资产; 数据质量管理:提供全链路的数据质量监控,有问题可以及时发现和处理,防止问题进一步扩散,可以及时止损。

表未按时产出 上游数据错误,污染下游,导致链路异常 埋点数据丢失,无监控造成数据丢失无法发现 报表数据异常,造成决策错误

业务端:业务源系统变更,或业务端数据输入不规范,会导致数据生产以及数据接入出现异常。 技术端:数据开发过程中出现的 Bug,或任务参数配置错误,导致任务运行失败。 基础设施:计算资源不足,或网络带宽不足,磁盘被打满,也会影响数据产出。 管理端:缺乏质量意思,缺乏有效质量问题处理机制,质量问题会越来越严重。

事前:制定机制、标准流程和质量检查规则,预防质量问题。 事中:数据质量平台搭建,可以监控全链路数据质量。 事后:发现质量问题要及时修复,并考核数据链路质量,驱动数据链路负责人做数据质量提升。

零代码一站式质量监测。 支持表维度管理和主题维度管理:表维度是对单张表做质量规则配置,主题维度是对同一类别的表做相同类别的质量配置。 借助了元数据平台中的数据血缘,完成整个数据链路的质量规则配置。 当质量规则配置完成后,会生成一个质量检测任务,用户可以手动触发制定,也可以设置周期性调度执行,也可以去任务调度平台触发执行。因为一个任务对应一些输出表,当输出表落地后,会触发这个表关联的质检规则执行。如果关联的质检规则是强规则,且强规则检测未通过,会阻断下游任务执行,就能阻止数据质量问题进一步扩散。 质检完成后,会生成质量报告;对于质量检测不通过的,会触发告警。严重的会触发熔断。






一般问题:只需要邮件通知 重要问题:邮件+飞书通知 严重问题:邮件+飞书+电话通知





表数量大 增长快速 冷数据占比多:约33%的数据90天内无访问,但是这些冷数据存储成本消耗和标准存储是一样的,造成很大的成本浪费

首先建立资源预算机制,通过预算预警和限制,从部门层面控制整体成本使用。 其次,落地数据资产度量体系。能够清晰掌握各项资源消耗,并核算成部门和个人级别的成本明细,转换成健康分,就能非常客观地度量成本使用情况。 并且,配合有效的辅助治理措施,对离线存储和计算任务进行技术优化。

最下面是数据源层,成本消耗主要来自于计算任务产出的表、报表、标签等数据资产,它们分散在基础设施各处。 要度量这些资产的成本数据,需要从各个平台或引擎采集消耗的明细数据,以个人或部门维度统计分析。 经过平台数仓层,加工成可量化展示的成本数据,并根据这些明细数据分析转换成存储和任务的健康分。用户就可以非常直观地知道自己名下哪些任务资源消耗大,哪些表占用存储空间大;为推动任务优化和存储治理提供非常有利的数据支撑。相比以往需要人工核算成本账单,现在自动化统计运营的过程,更加精确高效,也节约了人工成本。

冷热分层和归档

生命周期管理



数据资产:提供数据资产的热度统计,帮助理解数据上下文 数据开发:支持影响分析和问题数据溯源 数据治理:链路状态追踪,帮助数仓进行治理工作 数据安全:安全合规检查以及字段安全级别传播


更高效的找数服务 更细粒度的血缘 增强成本治理能力 推广统一模型和数据标准
今天的分享就到这里,谢谢大家。

|分享嘉宾|

陈元
货拉拉 资深大数据工程师
毕业于中国农业大学,计算机技术,硕士研究生学历。
2015年-2021年,明略科技集团,负责数据中台相关产品的研发工作。
2021年-至今,货拉拉,负责货拉拉数据治理平台、大数据引擎服务的研发工作。

张放
货拉拉 高级大数据工程师
研究生毕业于英国布里斯托大学,已工作4年,目前就职于货拉拉,主要从事元数据平台和数据治理相关工作。
🧐 分享、点赞、在看,给个3连击呗!👇
文章转载自畅谈Fintech,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




