暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Cloudera DataFlow Designer:数据管道敏捷开发的关键

大数据杂货铺 2023-03-24
277

Cloudera DataFlow Designer 使开发人员能够使用支持敏捷开发的可视化无代码界面,为其所有数据分发要求创建数据流。



01

构建数据管道的关键需求

每个数据管道都开始于业务需求。例如,要求开发人员在将新获取的应用程序数据交付给企业分析系统之前,对其进行解析和转换,以便进入系统时与现有数据集结合。通常这数据传输管道不仅仅是一次性的,而是需要持续运行并可靠地从源应用程序传输新数据。负责构建这些数据管道的开发人员正在寻找:

1、为他们提供按所需的开发环境,无需维护。
2、允许他们以尽可能少的开销迭代开发处理逻辑和测试。
3、适合现有的CI/CD流程,可以将数据管道推广到生产环境。

4、为生产数据管道提供监控、警报和故障排除。

随着DataFlow Designer的普遍适用,开发人员现在可以在一个满足他们所有要求的统一的用户界面,构建、测试、部署和监控数据流来实现他们的数据管道。



02

CDF-PC的数据流生命周期

Cloudera DataFlow for the Public Cloud (CDF-PC) 中的数据流遵循定制的生命周期,该生命周期可以从从头开始创建新草稿或者从目录打开现有流定义开始。新用户可以通过打开ReadyFlows快速入门,也就是针对常见用例开箱即用的模板。

创建或打开草稿后,开发人员就能使用可视化设计器,来构建他们的数据流逻辑,并使用交互式测试会话进行验证。当草稿准备好在生产中部署时,会发布到目录中,并且可以使用无服务器DataFlow函数(用于事件驱动的微突发用例)或自动扩展DataFlow部署(用于低延迟、高吞吐量用例)进行生产应用。

1DataFlow DesignerCatalogDeployments Functions CDF-PC 中提供完整的定制流生命周期



03

从头开始创建数据流

开发人员通过 Cloudera DataFlow中新的Flow Design菜单项访问Flow Designer(图 2),显示用户有权访问的跨工作区的所有草稿的概览。从这里可以轻松地继续处理现有草稿。只需单击草稿名称,或创建新草稿从头开始构建流程。

可以将草稿视为正在开发中的数据流。这些数据流最终可能会发布到用于生产部署的目录中,但也可能被丢弃,永远不会进入目录。在Catalog之外管理草稿可清楚区分开发周期的各个阶段,仅仅保留那些已准备好部署的流发布在Catalog中。任何尚未准备好部署到生产环境的东西都被视为草稿。

2Flow Design页面提供了您有权访问的跨工作区的所有草稿的概览



04

从ReadyFlows创建草稿

CDF-PC为公共云中的常见数据移动用例提供了一个不断增长的ReadyFlows库。到目前为止,ReadyFlows是通过提供连接参数来创建部署最简便的方法,无需构建任何实际的数据流逻辑。使用Designer,可以从任何ReadyFlow创建草稿并将其用作用例的基线。

ReadyFlows快速启动流开发,允许开发人员更快地载入新数据源或目标,同时可以灵活地根据其用例调整模板。

如何从Kafka获取数据并将其写入Iceberg?只需创建一个从Kafka到Iceberg ReadyFlow的新草稿,然后在Designer中探索。

3:您可以基于库中的任何ReadyFlow创建新草稿


新草稿从ReadyFlow创建后,立即在Designer中打开。用户可以通过标签了解流程中每个组件的功能用途。Designer提供了灵活修改ReadyFlow的功能。用户可以添加新的数据处理逻辑、更多数据源或目标,以及参数和控制器服务。也可以从最佳实践库中学习,并将其打造成自己的最佳实践。

4:从 ReadyFlow 创建草稿后,您可以对其进行自定义以适合您的用例



05

使用测试会话进行敏捷迭代和交互式开发

在Designer中打开草稿时,可以立即添加更多处理器、修改处理器配置或创建控制器服务和参数。然而对于每个开发人员来说,一个关键特性是获得即时反馈,例如配置验证或性能指标,以及预览数据流每个步骤的数据转换。

在DataFlow Designer中,可以创建测试会话,将画布变成交互式界面,提供快速迭代流程设计所需的所有反馈。

一旦测试会话处于活动状态,就可以在画布上启动和停止各个组件、检索配置警告和错误消息,以及查看每个组件的最新处理指标。

测试会话通过在几分钟内动态配置计算资源来提供此功能。计算资源只会在停止测试会话之前分配,与开发集群无论是否使用都必须全天候运行相比,有助于降低开发成本。

5:测试会话现在还支持入站连接,允许您测试从应用程序接收数据的数据流


测试会话现在还支持入站连接,从而可以轻松开发和验证使用TCP、UDP或 HTTP侦听和接收来自外部应用程序的数据流程。作为测试会话创建的一部分,CDF-PC会创建一个负载均衡器并为客户端生成所需的证书,以便与数据流建立安全连接。



06

使用内置数据查看器检查数据

为了验证流,在应用转换逻辑之前和之后快速访问数据是至关重要的。Designer可以启动和停止数据管道的每个步骤,从而使事件在将处理步骤链接在一起的连接中排队。

连接允许您列出其内容,并探索所有排队的事件及其属性。属性包含关键元数据,如文件的源目录或Kafka消息的源主题。为了更容易在队列中浏览数百个事件,Flow Designer引入了新的属性固定功能,允许用户将关键属性集中在焦点上,以便轻松地对事件进行比较。

6:在列出队列内容时,可以固定属性以便于访问


查看元数据和pin属性的功能对于找到想要进一步探索的正确事件非常有用。一旦确定了要探索的事件,就可以一键打开新的Data Viewer,查看其中包含的实际数据。Data Viewer根据数据的MIME类型自动解析数据,并能够格式化CSV、JSON、AVRO和YAML数据,以及以原始格式或二进制数据的HEX表示形式显示数据。

7:内置的数据查看器允许您探索数据并验证您的转换逻辑


通过一步一步地在处理器中运行数据,并根据需要使用数据查看器,您可以在开发过程中以迭代的方式验证处理逻辑,而不必将整个数据流视为一个可部署的单元。这为快速而敏捷的流程开发过程提供了条件。



07

将草稿发布到目录

使用Flow Designer构建和验证流程逻辑后,下一步是运行更大规模的性能测试,或在生产中部署流程。CDF-PC的中央目录实现了从开发环境到生产环境的无缝过渡。

在Flow Designer中开发数据流时,可以随时将工作发布到Catalog以创建版本化的流定义。可以将流程发布为新的流程定义,也可以发布为现有流程定义的新版本。

8:将数据流作为新流定义或新版本发布到目录


DataFlow Designer提供一流的版本控制支持,开发人员需要这些支持来掌握不断变化的业务需求或源/目标配置更改。 

除了将新版本发布到Catalog之外,还可以在Flow Designer中将Catalog中的任何版本化流程定义作为草稿打开,并将其用作下一次迭代的基础。新草稿与目录中的相应流程定义相关联,发布更改将自动在目录中创建一个新版本。

9:您可以从目录中发布的任何版本的流定义创建新草稿



08

将数据流作为自动扩展部署或无服务器运行

CDF-PC为数据流提供两个云原生运行时:DataFlow Deployments和DataFlow Functions。目录中的任何流定义都可以作为部署或功能来执行。 

DataFlow Deployments提供有状态的自动缩放运行时,非常适合具有低延迟处理要求的高吞吐量用例。DataFlow Deployments通常是长时间运行的处理流式或批处理数据,并在定义的最小和最大节点数之间自动向上和向下扩展。可以使用部署向导创建DataFlow部署,或使用CDP CLI自动执行。

DataFlow Functions提供了一种高效、成本优化、可扩展的方式,完全无服务器运行数据流。DataFlow Functions通常是短暂的,在触发后执行,例如文件到达对象存储位置或事件发布到消息传递系统。要将数据流作为函数运行,可以使用用户自己最喜欢的云提供商的工具来创建和配置函数,并将其链接到已发布在DataFlow Catalog的任何数据流。DataFlow Functions在AWS Lambda、Azure Functions和Google Cloud Functions上都支持。


09

展望未来

DataFlow Designer的普遍可用性代表了实现云原生服务愿景的重要一步。组织可以使用该服务来实现通用数据分发,任何开发人员,无论他们的技术背景如何,都可以轻松使用。Cloudera DataFlow for the Public Cloud (CDF-PC) 现在涵盖了整个数据流生命周期,从使用Designer开发新流,到使用DataFlow DeploymentsDataFlow Functions在生产中测试和运行。

10Cloudera DataFlow for the Public Cloud (CDF-PC) 支持通用数据分发


从今天开始,所有CDP公共云客户都可以使用DataFlow Designer。我们很高兴听到您的反馈,希望您会喜欢使用新的Designer构建数据流。


作者:Michael Kohs

原文链接:https://blog.cloudera.com/cloudera-dataflow-designer-the-key-to-agile-data-pipeline-development/

文章转载自大数据杂货铺,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论