暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Amazon RDS for MySQL 与 Amazon Redshift 的零 ETL 集成现已全面推出,可实现近乎实时的分析

通讯员 2024-09-14
146

零 ETL 集成有助于跨应用程序和数据源统一数据,以获得整体洞察并打破数据孤岛。它们提供完全托管、无代码、近乎实时的解决方案,在将数据写入 Amazon Relational Database Service (Amazon RDS) for MySQL 后的几秒钟内,即可在 Amazon Redshift 中提供 PB 级的事务数据。这样就无需创建自己的 ETL 作业,从而简化了数据摄取,减少了运营开销,并可能降低总体数据处理成本。去年,我们宣布全面推出适用于 Amazon Aurora MySQL 兼容版的 Amazon Redshift 的零 ETL 集成,以及 Aurora PostgreSQL 兼容版、Amazon DynamoDB 和 RDS for MySQL 的预览版。

我很高兴地宣布,使用 Amazon Redshift 的 Amazon RDS for MySQL 零 ETL 现已全面推出。此版本还包括新功能,例如数据筛选、对多个集成的支持以及在 AWS CloudFormation 模板中配置零 ETL 集成的功能。

在本文中,我将展示如何开始跨多个数据库和数据仓库进行数据筛选和整合数据。有关如何设置零 ETL 集成的分步演练,请参阅此博客文章,了解如何为 Aurora MySQL 兼容设置集成,该集成提供了非常相似的体验。

 数据筛选
大多数公司,无论规模大小,都可以从向其 ETL 作业添加筛选中受益。一个典型的使用案例是通过仅选择从其生产数据库中复制所需的数据子集来降低数据处理和存储成本。另一种方法是从报表的数据集中排除个人身份信息 (PII)。例如,医疗保健企业可能希望在复制数据以构建分析近期患者病例的聚合报告时排除敏感的患者信息。同样,电子商务商店可能希望向其营销部门提供客户消费模式,但排除任何身份信息。相反,在某些情况下,您可能不想使用筛选,例如,当向需要近乎实时的所有数据进行推理的欺诈检测团队提供数据时。这些只是几个示例,因此我鼓励您尝试并发现可能适用于您的组织的不同使用案例。

有两种方法可以在 zero-ETL 集成中启用筛选:首次创建集成时或修改现有集成。无论哪种方式,您都可以在 zero-ETL 创建向导的 “Source” 步骤中找到此选项。


您可以通过输入筛选条件表达式来应用筛选条件,这些筛选条件表达式可用于在数据集中包括或排除数据库或表,格式为 database*.table*。您可以添加多个表达式,它们将按从左到右的顺序进行计算。

如果您要修改现有集成,则在您确认更改后,新的筛选规则将从该时间点开始应用,并且 Amazon Redshift 将删除不再属于筛选条件的表。

如果您想更深入地了解,建议您阅读这篇博客文章,其中深入介绍了如何为 Amazon Aurora 零 ETL 集成设置数据筛选条件,因为步骤和概念非常相似。

从单个数据库创建多个零 ETL 集成
现在,您还可以配置从单个 RDS for MySQL 数据库到最多 5 个 Amazon Redshift 数据仓库的集成。唯一的要求是,您必须等待第一个集成成功完成设置,然后才能添加其他集成。

这允许您将与不同的团队共享事务数据,同时为他们提供对特定使用案例的自己的数据仓库的所有权。例如,您还可以将其与数据筛选结合使用,以将不同的数据集从同一 Amazon RDS 生产数据库扇出到开发、暂存和生产 Amazon Redshift 集群。

另一个可能非常有用的有趣场景是通过使用零 ETL 复制到不同的仓库来整合 Amazon Redshift 集群。您还可以使用 Amazon Redshift 具体化视图来浏览数据、为 Amazon Quicksight 控制面板提供支持、共享数据、在 Amazon SageMaker 中训练作业等。

 结论
RDS for MySQL 与 Amazon Redshift 的零 ETL 集成允许您复制数据以进行近乎实时的分析,而无需构建和管理复杂的数据管道。它现已正式发布,能够添加筛选表达式以在复制的数据集中包含或排除数据库和表。现在,您还可以设置从同一源 RDS for MySQL 数据库到不同 Amazon Redshift 仓库的多个集成,或者创建来自不同源的集成以将数据整合到一个数据仓库中。

这种零 ETL 集成适用于受支持的 AWS 区域中的 RDS for MySQL 版本 8.0.32 及更高版本、Amazon Redshift Serverless 和 Amazon Redshift RA3 实例类型。

除了使用 AWS 管理控制台之外,您还可以通过 AWS 命令行界面 (AWS CLI) 和使用 AWS 开发工具包(如适用于 Python 的官方 AWS 开发工具包 boto3)来设置零 ETL 集成。

请参阅文档以了解有关使用零 ETL 集成的更多信息。


作者: Matheus Guimaraes

2024年9月12日

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论