暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

学习数据管道的架构

原创 不是小熊 2022-10-26
1179

介绍

控制从源到目标系统(例如数据仓库)的信息流是任何寻求从原始数据中产生价值的企业不可或缺的一部分。数据管道的架构是一项复杂的任务,因为在传输过程中可能会出现一些问题;数据源可以创建重复,错误可以从源传播到目标,数据可能会损坏等。

数据管道的架构
资料来源——Ftech.urbancompany.com

数据和资源的增加会使该过程进一步复杂化。这就是数据馈送发挥作用的地方。  数据管道自动化通过消除手动提取、转换和加载步骤以及自动化流程来简化数据流。

本文将介绍数据管道架构以及为什么需要在集成项目之前对其进行规划。接下来,我们将看到数据通道的基本部分和过程。最后,我们将解释数据管道架构的两个示例,并讨论最好的数据管道工具之一。

 与大数据管道和 ETL 管道不同,后者涉及从源中提取数据、转换数据并将其加载到目标系统中,数据管道是一个更广泛的术语。它包括大数据和 ETL 管道作为子集。

ETL 和数据管道的基本区别在于后者使用处理工具将数据从一个系统移动到另一个系统,而不管数据是否经过转换。

  • 吞吐量:它是在给定时间内处理管道中数据的速率。
  • 可靠性:要求数据管道中的各种系统具有容错性。因此,可靠的渠道具有内置的审核、验证和日志记录系统,以确保数据质量。
  • 延迟:让我们参考一个单位数据通过数据通道所需的时间。它基本上是关于响应时间而不是吞吐量。

 需要数据管道

由于每天都有大量数据流动,因此拥有允许实时处理所有数据的流式数据管道架构是有利的,从而增强了分析和报告功能。数据馈送通过使其可用于洞察功能区域来增加数据的目标功能。例如,数据摄取通道将信息从各种来源传输到集中式数据仓库或数据库。这可以帮助分析与目标客户行为、流程自动化、买家旅程和客户体验相关的数据。

由于数据管道以专为特定组织需求设计的块的形式传输数据,因此您可以通过深入了解即时趋势和见解来改进您的商业智能和分析。

来源——medium.com

数据管道对企业至关重要的另一个关键原因是,它整合了来自多个来源的数据以进行综合分析,减少了分析工作,并且仅提供团队或项目所需的信息。

此外,安全的数据馈送可以帮助管理员限制对信息的访问。他们只能允许内部或外围团队访问其目标所需的数据。

数据管道还可以改善数据收集和移动的许多阶段的漏洞。为了通过不同的系统复制或移动数据,您必须在存储库之间移动它,为每个系统重新格式化它,和/或将它与其他数据源集成。精心设计的流数据管道架构将这些小部分组合在一起,以创建一个可提供价值的集成系统。

 

数据管道架构的基本部分和流程

数据通道设计可分为以下几个部分:

数据源

数据摄取管道架构组件有助于从关系 DBMS、API、Hadoop、NoSQL、云源、开源、数据湖、数据存储库等来源获取数据。获取数据后,您必须遵循安全协议和最佳实践以获得理想的性能和一致性。

萃取

某些字段可能具有不同的元素,例如地址字段中的邮政编码或许多值的集合,例如业务类别。如果需要提取这些离散值或需要屏蔽某些数组元素,数据提取就会发挥作用。

关节

作为数据管道架构设计的一部分,组合来自不同来源的数据是很常见的。联接定义了数据分组方式的逻辑和标准。

标准化

数据可能通常需要逐个字段进行标准化。这是使用与行业标准相关的测量单位、数据、元素、颜色或大小以及代码来完成的。

修理

数据集通常包含错误,例如州缩写或不再存在的邮政编码等无效字段。同样,数据也可能包含需要在另一个进程中删除或修改的损坏记录。数据管道架构中的这一步在将数据加载到目标系统之前对其进行更正。

加载数据中

在您的数据被更正并准备好加载后,它会被移动到一个统一的系统中,用于分析或报告。目标系统通常是关系 DBMS 或数据仓库。每个目标系统都需要遵循最佳实践以获得良好的性能和一致性。

自动化

数据馈送通常按计划或连续多次实施。调度各种流程需要自动化以减少错误并将状态传递给监控程序。

追踪

与任何其他系统一样,也应全面研究数据通道设计中涉及的各个步骤。如果没有监控,您将无法正确确定系统是否按预期运行。例如,您可以测量特定作业的启动和停止时间、总运行时间、完成状态以及任何相关的错误消息。

 

数据通道架构示例

大数据管道的两个最重要的例子是:

批处理数据管道

批处理涉及处理已经存储了一段时间的数据块。例如,处理一家主要金融公司在一个月内进行的所有交易。

批处理更适合需要处理而不需要实时分析的大量数据。在批处理数据馈送中获得全面的见解比更快的分析结果更重要。

在批处理数据管道中,源应用程序(例如销售点 (POS) 系统)可能会生成大量数据点,您需要将这些数据点传输到数据仓库和分析数据库。

下图显示了批处理数据通道的工作原理:

批量数据通道工作

来源——medium.com

流数据管道

它实时和运动地对数据执行操作。它允许您在更短的时间内从数据采集中快速识别条件。因此,您可以在创建分析工具时将数据输入到分析工具中并快速获得结果。

流数据通道在生产过程中处理 POS 系统的数据。数据流处理引擎将数据管道的输出发送到数据仓库、营销应用程序、CRM 和其他几个应用程序,然后将它们发送回 POS 系统。

以下是数据流系统如何工作的示例:

数据流系统工作

来源——medium.com

结论

原始数据集包括可能与您的业务相关或不相关的数据点。数据管道架构使用各种软件技术和协议来集成和管理关键业务信息,以简化报告和分析。

  • 许多选项可用于构建简化数据集成的数据管道架构。最好的管道自动化工具之一是 Astera Centerprise 8.0,它可以帮助您提取、清理、转换、集成和管理管道,而无需编写任何代码。
  • 与大数据管道和 ETL 管道不同,后者涉及从源中提取数据、对其进行转换并将其加载到目标系统中,数据管道是一个更广泛的术语。它包括大数据和 ETL 管道作为子集。
  • 批处理更适合需要处理而不需要实时分析的大量数据。在批处理数据馈送中获得全面的见解比更快的分析结果更重要。


原文标题:Learn the Architecture of a Data Pipeline

原文作者:Chetan Dekate 

原文链接:https://www.analyticsvidhya.com/blog/2022/10/learn-the-architecture-of-a-data-pipeline/

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论