暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据目录指南:示例、要查找的内容以及它们的去向

大数据杂货铺 2024-02-05
326

以下是本文的 2 分钟摘要,强调了组织需要现代数据目录的原因:

·数据目录不再仅仅是数据的清单、术语表或字典。它是一个活跃的数据资产存储库,充当数据资产的上下文、控制和协作平面。

·在本文中,我们将了解现代数据目录的组件及其优点和功能。

什么 40% 的数据目录程序失败?

缺乏采用和业务参与是目录计划失败的主要原因。

数据目录是现代数据管理的支柱,使组织能够有效地查找、理解、信任和使用其数据。请继续阅读,详细了解什么是数据目录以及为什么您在 2024 年需要数据目录

 

1.什么是数据目录?

    

现代数据目录可以帮助人们查找、理解、信任和使用数据。

例如,假设您担任政府卫生部门的分析师。数据目录可以帮助您:

·查找相关数据。数据目录可以告诉您分析流感病例所需的数据集。    

·跟踪、跟踪和信任数据。如果您想知道谁编辑了数据集、它有多久了或者它来自哪里,数据目录会告诉您这些。

·合作。如果您需要与其他部门的人员合作来理解和管理您的数据集怎么办?这就是共享工作空间等协作功能的用武之地。

·分享您的数据。通过发布您的数据和相关元数据,可以轻松地将您的发现提供给其他部门。

·实施治理策略 和访问控制。强制执行谁有权访问哪些数据并记录遵守《通用数据保护条例》(GDPR) 等法规的情况。

一些最常见的数据目录用例是:

1.高效的数据管理:数据目录通过将不同来源的数据汇集在一起,使众包数据管理变得更加容易,以便您可以组织和维护它们。

2.提高数据团队的生产力:数据从业者花在寻找正确数据上的时间比实际使用数据的时间要多得多。数据目录通过减少数据搜索和发现所需的时间来极大地提高生产力。

3.统一所有数据上下文:数据目录统一了生态系统中存在的所有数据的上下文,并作为业务的可信语义层。

4.简化员工入职:借助数据目录,新员工入职到组织和团队成员入职新项目的效率非常高,数据目录使他们能够轻松、快速、安全地访问具有上下文的可信数据。    

5.加速根本原因分析:数据目录中的沿袭功能意味着在数据产品出现故障时可以更快地进行故障排除和根本原因分析。

6.简化安全性和合规性:数据目录可能是简化整个组织的数据安全性和合规性的唯一且最简单的方法。

7.成本优化:数据目录可以帮助您的团队更好地使用计算、简化数据管道以及删除重复或未使用的数据资产。

2.数据目录不是什么

   

·数据清单。 与数据目录不同,数据清单通常是静态资产,没有搜索等功能

·数据仓库。 数据目录并非像数据仓库那样被设计为持久性和访问层    

·商业术语表。 业务术语表有助于定义数据存储中使用的术语的通用语言,并与数据目录一起使用

·数据字典。 与数据术语表一样,字典可以帮助用户理解数据的语义,但不提供编目功能

·数据湖。数据湖与数据仓库一样,都是持久层。它们不一定组织或帮助用户使用它们包含的数据。

3.您可以使用数据目录做什么?

    

1.数据搜索和发现:与搜索信息或在线购买物品一样直观的搜索体验。充满建议、信任信号和过滤功能

2.业务术语表:业务术语表,包括关键数据元素,例如定义、类别、用法、所有者详细信息以及为数据资产添加上下文的其他信息

3.数据沿袭:自动化的可视化沿袭,用于跟踪数据流及其在整个生命周期中经历的转换

4.协作:无缝融入数据团队日常工作流程的工作空间,简化数据共享和访问请求监控

5.数据治理:能够为精细控制设置工作流程,以根据角色、资产类型、分类等限制访问

6.集成:与整个数据堆栈中的所有关键组件和工具进行本机或 API 驱动的集成    

3.1.数据发现和搜索 

感谢 Google、Amazon、Netflix、Uber 等,我们的搜索体验发生了根本性的变化。

如果您想在线购买一件 T 恤,如果您的搜索返回 34 亿个随机结果,您一定会大笑起来。您期望与您最相关的结果位于顶部。您还知道,与您相关的事情可能与您的儿子无关——您的需求和经历都会不同。

同样,在考虑购买东西时,您需要背景信息。您想阅读其他人的评论,查看他们在不同天气下穿着 T 恤的照片等。

现在是 2024 年,您的团队在搜索要使用的数据资产时期望数据目录也能实现同样的效果。他们期望:

·像Google一样快速返回搜索结果

·知道用户何时拼写错误的数据目录

·根据业务上下文进行过滤

·对他们的数据充满信心    

·了解数据资产的使用行为、沿袭可见性和验证状态

 

3.2.术语表  


 

业务术语表有助于定义、标准化数据资产并使其情境化,以便每个人都使用相同的语言。

因此,您可以停止提出问题,例如:

1.“这个数据资产意味着什么?”

2.“这份报告中的Y代表什么?”

3.“Y 与 X 有什么不同?”    

早在 2017 年,Airbnb 的 Chris Williams 和 John Bodley就曾说过部落知识会抑制数据团队的生产力。没有上下文的数据是没有用的。

想象一下您团队中试图理解 salesfigureNA_f 的新成员。或者您在不同大陆的团队成员一直在阅读英制系统中的数字,而您的所有计算都是公制的。两者都需要一个术语表才能达到同一页面。

 

3.3.数据沿袭  


 

数据目录中的数据沿袭功能提供了对数据起源及其生命周期演变的可见性。

最好的数据目录工具可确保:

·列级可见性

·跨系统血统

·根据谱系智能采取行动的工作流程    

·通过血统传播分类和政策

3.4.协作   

数据目录将所有内容汇集在一起 - 来自不同来源的数据、该数据的智能(机器+人类)、生产和使用该数据的人员以及他们使用的工具。协作使这种融合成为可能。    

现代数据目录允许用户在日常工作流程中直观地行动(协作):

·标记团队成员,要求他们为数据资产添加更多上下文

·将有关数据资产的 Slack 对话引入目录本身

·提出 JIRA 票证以解决损坏的管道

3.5.数据治理

正确且维护良好的数据资产清单(传统目录)可能是治理的良好起点。然而,考虑到现代企业中数据的速度、数量和复杂性,这还不够。

我们需要将治理策略嵌入到日常工作流程中的数据目录,而不是事后的想法。现代数据目录了解数据治理需要自下而上开始。它必须由从业者主导,而不是自上而下处理。    

实施强大的数据治理计划是部署数据目录工具的一个巨大的业务案例。这就是企业寻找能够帮助他们通过设计进行治理的数据目录的原因。

这是如何体现的呢?这里有些例子:

·灵活反映团队的工作方式

·能够实施基于域、基于角色和基于目的的访问策略

·自动识别敏感数据

·通过谱系自动传播自定义分类

3.6.集成   

我们之前提到过,但值得重复:数据目录必须与现代数据堆栈中的所有关键数据源和工具集成,才能使用元数据。

数据目录通常集成:    

·数据源——数据仓库(如Snowflake)、关系数据库(如MySQL)和lakehouse(如Databricks等)。

·转型引擎 - dbt 云、dbt 核心。

·商业智能工具 - Looker、Power BI、Tableau。

现代数据目录也默认打开。它们是可扩展和可定制的。除了支持本机集成之外,它们还使数据工程师能够使用开放 API 从其他来源引入元数据。

数据目录不仅从数据源获取元数据,还从 ETL、摄取、流媒体和 BI 工具获取元数据。

   

 

4.如何知道您是否需要数据目录  

 

许多组织都会从数据目录中受益。但这里有一些具体迹象,是时候迈出这一步了。

 

4.1.您正在努力寻找正确的数据  


 

十分之六的 IT 领导者表示,他们取消项目是因为找不到必要的数据。无数其他草根项目从未启动,因为项目所有者不知道在哪里或如何找到他们需要的数据。

数据目录通过提供可通过自然语言查询搜索的所有数据的中央存储库来提供帮助

4.2.您不知道要使用哪些数据  

即使您可以找到数据,您也可能无法判断它是否是正确的数据。它从何而来?谁拥有它?多久更新一次?格式正确吗?

如果没有元数据和跟踪数据沿袭的功能,这些问题通常得不到答案。使用竞争数据集的项目成员无法就使用哪些数据达成一致。

数据目录有助于:通过数据沿袭记录数据的起源和移动    

 

4.3.您管理来自多个不同数据存储的数据  


 

数据湖、数据湖屋、RDBMS、NoSQL 数据库、数据仓库、对象存储 - 只是您的公司可以存储驱动业务的数据的几个地方。

这种多样性并没有什么问题。不同格式的不同数据有不同的用途。

然而,这也意味着没有一个集中的位置来查找和管理数据。它还使得标准化一组跨所有数据存储的数据质量和数据治理最佳实践变得困难。

数据目录可以通过以下方式提供帮助:提供单一事实来源来对数据进行编目、分类和发现,无论数据位于何处

 

4.4.您的数据记录不足  


 

当数据分布在不同的数据存储中时,甚至很难判断这些数据的用途

数据目录有助于:通过业务术语表记录常用术语并存储描述数据用途的元数据

 

4.5.您有安全和监管要求

如果您的数据分布在多个不同的数据存储中,那么遵守行业的安全和监管要求可能会很困难(如果不是不可能的话)。例如,除非您知道哪些数据是客户数据以及它们在公司内的位置,否则您无法正确响应 GDPR 删除权请求。

数据目录可以通过以下方式提供帮助:在所有数据存储中实施数据治理策略,并通过基于角色的安全性进行访问控制    

 

4.6.您想要使数据民主化

在许多公司中,创建新的数据产品意味着获得官方批准并向 IT 部门提出要求。这会导致速度放缓和积压,导致许多新项目在启动前就被扼杀。

数据目录有助于:通过让组织中的每个人都能够访问、理解和管理数据来实现数据民主化,减少对 IT 的依赖,并加快新数据产品的交付

 

5.下一波数据目录:数据副驾驶  

 

第一代数据目录提供了查找数据的中心位置。

但今天的数据目录需要做更多的事情。组织需要更好、更快的方法来跟踪数据、评估变更的影响并帮助用户共享和协作新的数据项目。

现代数据目录在帮助您管理和激活数据方面发挥着积极作用 - 它们更像是副驾驶而不是目录。

·活动元数据。主动元数据利用开放 API,确保您的数据目录通过双向流不断更新和刷新元数据。

·嵌入式协作。使员工能够使用他们每天使用的业务工具(例如 Slack 和 Jira)在数据项目上协同工作。    

·人工智能支持。使用自然语言查询查找数据、简化复杂的 SQL 语句并大规模自动记录数据存储。

·简单,DIY 安装。遗留数据目录可能需要数月时间和顾问团队才能实现其价值。

原文链接:https://atlan.com/what-is-a-data-catalog

              

文章转载自大数据杂货铺,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论