在 COVID-19 大流行期间,AWS Glue 成为华特迪士尼公司的关键工具。
AWS Glue 是 Amazon Web Services 的无服务器数据集成平台。该工具使用户能够构建新的数据管道、连接来自不同来源的数据、定义数据、实施数据治理框架、开发和安排自动化数据工作流,以及在必要时监控和排除数据管理故障。
最近,在 AWS 主办的用户大会 re:Invent 2022 期间,这家云计算巨头推出了一项新功能,可以自动监控和管理 Amazon S3 数据湖和 Glue 数据管道的新鲜度、准确性和完整性。
与此同时,沃尔特迪斯尼公司是一家大众媒体和娱乐企业,成立于 1923 年,总部位于加利福尼亚州伯班克。
作为其娱乐业务的一部分,迪士尼拥有并经营着六个度假胜地、12 个主题公园、53 家酒店和五艘游轮。当 2020 年 3 月大流行病袭来时,迪士尼被迫关闭了所有这些目的地。
最终,COVID-19 限制开始放宽,迪士尼得以重新开放其财产。然而,事实证明,弄清楚如何在大流行期间安全地这样做很复杂。
拉尔夫·彼得金 (Ralph Peterkin) 表示,这需要进行大量数据分析——包括开发一整套新报告、模型和仪表板——以弄清楚如何最大限度地提高出勤率,同时最大限度地降低对客人和员工的风险,然后实施该计划,迪士尼首席技术架构师。

迪士尼首席技术架构师 Ralph Peterkin 在 re:Invent 2022 期间谈到了这家媒体和娱乐巨头对 AWS Glue 的使用。
“我们需要了解这些数字,”他在 re:Invent 的流媒体会议上说。“我们需要了解什么是产能,以及我们是否正在实现我们的目标。我们需要新的分析流程。我们需要启动几组新的工作岗位。”
但迪士尼现有的数据集成平台不适合公司的新需求,Peterkin 继续说道。
“有一些挑战,”他说。“这并不简单。”
迪士尼的新平台
在大流行之前,迪士尼是 AWS 的客户。但出于数据集成的需要,迪士尼选择了包括Apache Spark在内的开源工具来构建Hadoop 集群。然后它在Amazon EC2上运行这些集群。
“我们使用了一个典型的堆栈,”彼得金说。
但根据彼得金的说法,甚至在大流行之前,迪士尼典型的 Hadoop 堆栈和 EC2 的组合就存在问题。集群难以确保安全,它们已达到或接近容量,并且需要大量规划和协调才能扩展它们以满足迪士尼不断增长的数据需求。
所有这一切都意味着将资源(应用程序开发人员和数据工程师)从构建新数据产品转移到维护工作上。
由于大流行对公司数据提出了更多要求,彼得金说他和他的团队质疑是继续使用迪士尼现有的数据集成工具还是转向新平台。
他们想知道新的挑战是否需要过多地使用迪士尼的旧 Hadoop 堆栈。他们想知道是否有其他选择可以让迪士尼的数据工程师使用他们已经开发的相同技能,而不用强迫他们学习新的编码语言。
因此,他们制定了更改数据集成平台的标准。
如果迪士尼要做出改变,它需要一个可以快速启动和运行的无服务器计算平台,而无需迫使数据工程师在平台本身之上构建重要功能。它需要一个基于Spark的平台,不需要重新培训数据工程师,而且它需要一个具有成本效益的平台。
“我们想要一些能让我们的开发人员进入、编写代码然后离开的东西,”彼得金说。
迪士尼在云计算巨头 2017 年首次发布的 AWS Glue 中找到了它想要的东西。与之竞争的数据集成平台包括Microsoft Azure Data Factory、Talend Data Integration 和 SAP HANA Cloud。
迪士尼和WS Glue
借助 AWS Glue,迪士尼构建了数据管道,其数据工程师、软件工程师和平台工程师可以使用这些管道来开发为决策提供信息的数据产品。
然而,迪士尼需要运行数万个作业,并很快发现其数据量对于一个典型的 AWS Glue 实例来说太大了。但借助 Glue,迪士尼能够使用 API 创建 Glue 实例集群,而这些集群具有满足迪士尼数据需求的计算能力。
现在,迪士尼的数据管道将数据馈送到 Glue 集群,开发人员和工程师可以在其中创建和运行作业。
此外,迪士尼还能够标准化其数据集成工作流程以避免编码差异。
“我们实际上构建了一个内部 Glue 框架,”彼得金说。“有一个 [传统] Glue 框架,但我们的要求 [与其他组织] 略有不同,我们希望为开发人员构建一种标准方式来处理迪士尼特有的事情。如果你给 10 个开发人员一些代码写作,他们会用 10 种不同的方式来做,我们不希望这种情况发生。”
他指出,尤其是对于迪士尼来说,建立一种标准的、受监管的方式来处理合规性和敏感数据至关重要,这些数据需要不同员工获得不同的权限。
“我们为我们的开发人员提供了一个端到端的工具,”彼得金说。
该工具使用 AWS Glue 构建,使用以YAML作为语言的PySpark代码库来运行和跟踪作业,而无需编写新的 Spark 代码,迪士尼开发人员和工程师在之前使用 Hadoop 集群时熟悉所有这些代码。
“他们只需要用 YAML 文件指定几件事,[工具] 就会处理剩下的事情,”彼得金说。
结果
由于 COVID-19 大流行,迪士尼开始从 Hadoop 集群过渡到 AWS Glue。然而,由于成功地将数据与 Glue 集成,它得以继续。
据 Peterkin 称,现在,迪士尼已经完全摆脱了 Hadoop,并在其所有数据集成项目中使用 AWS Glue。因此,开发人员和工程师不再受 Hadoop 集群产生的技术债务的影响,而是可以将大部分时间用于构建实际的数据产品。
“我们从一组 COVID 工作负载开始,由于特定原因,我们希望启动并开始使用这些工作负载,”他说。“但它运行得非常好,以至于我们决定将 [预先存在的] 工作负载从我们的 Hadoop 集群中迁移出来,看看它是如何工作的。我们说,'为什么不干脆完全摆脱 Hadoop?' 我们将所有工作负载转移到了 Glue。”
根据 Peterkin 的说法,迪士尼现在正在 AWS Glue 上运行数以万计的工作。这可能很快就会突破 100,000 个工作岗位的大关。
“AWS Glue 使我们能够扩展我们的工作负载,超出我们的想象,”Peterkin 说。
文章来源:https://www.techtarget.com/searchdatamanagement/feature/Disney-improves-data-integration-efficiency-with-AWS-Glue




