今天我们很高兴地介绍 Databricks Workflows,这是与 Databricks Lakehouse 平台深度集成的完全托管的编排服务。Workflows 使数据工程师、数据科学家和分析师能够在任何云上构建可靠的数据、分析和 ML 工作流,而无需管理复杂的基础架构。最后,每个用户都有权为其业务计划提供及时、准确和可操作的见解。
Lakehouse 让企业更容易开展雄心勃勃的数据和 ML 计划。但是,编排和管理生产工作流程是许多组织的瓶颈,需要复杂的外部工具(例如 Apache Airflow)或特定于云的解决方案(例如 Azure 数据工厂、AWS Step Functions、GCP 工作流程)。这些工具将任务编排与底层数据处理平台分开,这限制了可观察性并增加了最终用户的整体复杂性。
Databricks Workflows 是完全托管的编排服务,可满足您的所有数据、分析和 AI 需求。与底层 Lakehouse 平台的紧密集成可确保您在任何云上创建和运行可靠的生产工作负载,同时为最终用户提供简单且深入的集中监控。
##从随时随地编排任何事情
Workflows 允许用户使用Delta Live Tables构建自动管理的 ETL 管道,包括摄取和沿袭。您还可以将 Notebooks、SQL、Spark、ML 模型和 dbt 的任意组合编排为作业工作流,包括对其他系统的调用。工作流可跨 GCP、AWS 和 Azure 使用,为您提供完全的灵活性和云独立性。
可靠且全面管理
从一开始就高度可靠,每个工作流程和工作流程中的每个任务都是隔离的,使不同的团队能够进行协作,而不必担心影响彼此的工作。作为云原生编排器,Workflows 可以管理您的资源,因此您不必这样做。您可以依靠 Workflows 为任何规模的数据提供动力,加入成千上万的客户,这些客户每天已经通过 Workflows 跨多个云启动了数百万台机器。
为每个用户创建简单的工作流
当我们构建 Databricks Workflows 时,我们希望让任何用户、数据工程师和分析师都能轻松编排生产数据工作流,而无需学习复杂的工具或依赖 IT 团队。考虑以下训练推荐机器学习模型的示例。在这里,Workflows 用于编排和运行七个单独的任务,这些任务使用Auto Loader提取订单数据,使用标准 Python 代码过滤数据,并使用带有 MLflow 的笔记本来管理模型训练和版本控制。所有这些都可以由数据团队使用 Workflows UI 构建、管理和监控。高级用户可以使用包含对 CI/CD 支持的富有表现力的 API 构建工作流。

“Databricks Workflows 允许我们的分析师轻松创建、运行、监控和修复数据管道,而无需管理任何基础设施。这使他们能够在设计和改进 ETL 流程方面拥有完全的自主权,从而为我们的客户提供必须具备的洞察力。我们很高兴将我们的 Airflow 管道转移到 Databricks Workflows。” YipitData 高级软件工程师 Anup Segu
集成在 Lakehouse 内的工作流程监控
随着您的组织创建数据和 ML 工作流,管理和监控它们变得势在必行,而无需部署额外的基础设施。Workflows 与 Databricks 中的现有资源访问控制集成,使您能够轻松管理跨部门和团队的访问。此外,Databricks Workflows 包括本机监控功能,因此所有者和管理人员可以快速识别和诊断问题。例如,新推出的矩阵视图让用户一目了然地对不健康的工作流运行进行分类:

由于已经监控了各个工作流,因此可以将工作流指标与现有的监控解决方案集成,例如 Azure Monitor、AWS CloudWatch 和 Datadog(目前为预览版)。
“Databricks Workflows 允许我们的分析师轻松创建、运行、监控和修复数据管道,而无需管理任何基础设施。这使他们能够在设计和改进 ETL 流程方面拥有完全的自主权,从而为我们的客户提供必须具备的洞察力。我们很高兴将我们的 Airflow 管道转移到 Databricks Workflows。” YipitData 高级软件工程师 Anup Segu
开始使用 Databricks 工作流
随着您的组织创建数据和 ML 工作流,管理和监控它们变得势在必行,而无需部署额外的基础设施。Workflows 与 Databricks 中的现有资源访问控制集成,使您能够轻松管理跨部门和团队的访问。此外,Databricks Workflows 包括本机监控功能,因此所有者和管理人员可以快速识别和诊断问题。例如,新推出的矩阵视图让用户一目了然地对不健康的工作流运行进行分类:
在 Databricks 工作区中,选择 Workflows,单击 Create,按照 UI 中的提示添加您的第一个任务,然后添加您的后续任务和依赖项。要了解有关Databricks 工作流的更多信息,请访问我们的网页并阅读文档。
由于已经监控了各个工作流,因此可以将工作流指标与现有的监控解决方案集成,例如 Azure Monitor、AWS CloudWatch 和 Datadog(目前为预览版)。 很高兴收到您关于您的体验和您希望看到的其他功能的信息。
原文标题:Introducing Databricks Workflows —— Reliable orchestration for data, analytics, and AI
原文作者:Stacy Kerkela, Robert Saxby, Roland Fäustlin, Lennart Kats, Bilal Aslam, Richard Tomlinson, Frank Munz and Erika Ehrli
原文地址:https://www.databricks.com/blog/2022/05/10/introducing-databricks-workflows.html




