暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

构建“Zero ETL”未来,亚马逊云科技帮助开发者实现近实时分析

亚马逊云科技 2023-07-04
279

「关注」「星标」我们,

每天接收关于亚马逊云科技的最新资讯


数据是每个应用程序、流程和业务决策的核心。当数据被用于改善客户体验和驱动创新时,就能推动业务增长。


据 Forrester 研究,相对于数据应用不够成熟的公司,那些有效获取业务洞察的公司,有高达8.5倍的可能性实现至少20%的收入增长。然而,要实现这一增长,需要简化一项流程——在数据分析前管理和准备好数据。


这就是为什么亚马逊云科技正在构建“Zero ETL 的未来”,如此一来,客户可以更多地专注于从数据中创造价值,而不是花精力在准备数据上。


ETL 的挑战


什么是 ETL?ETL 是提取(Extract)、转换清洗(Transform)、加载(Load)的过程,也是数据工程师用来整合来自不同来源的数据的过程。ETL 过程可能伴随着挑战性高、耗时长和成本高的问题。首先,它需要数据工程师手动编写自定义代码;接下来,DevOps 工程师必须部署和管理基础设施,以确保数据管道能够与工作负载一起扩展。如果数据源发生变化,数据工程师必须手动改代码并再次部署。这个过程可能需要几天的时间,然而与此同时,数据分析师无法进行交互式分析或构建可视化的界面看板,数据科学家无法构建机器学习(ML)模型或进行预测,导致最终用户无法做出基于数据的决策。


此外,构建或更改数据管道所需的时间,可能会导致数据不适用于近实时的场景,比如检测欺诈交易、发布在线广告和追踪乘客列车的时刻表。在这些情况下,改善客户体验、抓住新的业务机会或降低业务风险的机会可能就这样错过了。


反之,当企业可以快速、无缝地集成来自不同来源的数据时,他们对自己的客户和业务有了更好的理解,那么企业就可以更有信心地进行数据驱动的预测,改善客户体验,并在整个业务中推广数据驱动的洞察。


亚马逊云科技正在将

“Zero ETL”的愿景变为现实


我们一直在朝着实现“Zero ETL” 的目标稳步前进。我们听到了客户的反馈,他们希望能够直接将流式数据接入他们的数据存储中进行分析,而无需去研究复杂的 ETL 过程。


通过 Amazon Redshift 流式数据摄入功能,企业可以配置 Amazon Redshift 直接接入来自流式服务 Amazon MSK (Managed Streaming for Apache Kafka) 或  Amazon Kinesis 的高吞吐量流式数据,并让它们在几秒钟内进行近实时分析。他们可以连接到多个数据流,并将数据直接注入 Amazon Redshift,而无需在 Amazon Simple Storage Service (Amazon S3) 中进行暂存。运行分析后,可以通过云原生、无服务器的商业智能(BI)服务 Amazon QuickSight,让整个企业从业务洞察中获益。通过 Amazon QuickSight Q,用户可以轻松直观地获得业务洞察,这个功能能方便用户使用自然语言提出关于他们数据的业务问题,并通过数据可视化快速获得结果。


在实现 Zero ETL 的过程中,亚马逊云科技还提供了一项重要功能,即能够在无需移动数据的情况下查询各种数据源。通过使用 Amazon Redshift 和 Amazon Athena 中的联邦查询,企业可以对存储在他们的事务型数据库、数据仓库和数据湖中的数据运行查询,从而获取来自多个数据源的洞察,而无需移动数据。数据分析师和数据工程师可以使用他们熟悉的 SQL 命令来连接多个数据源,以便进行快速分析,并将结果存储在 Amazon S3 中以供日后使用。这种灵活的方法简化了数据摄入过程,避免了复杂的 ETL 流程。


在2022年亚马逊云科技 re:Invent 大会上,我们推出了 Amazon Aurora 与 Amazon Redshift 的 Zero ETL 集成。请观看以下视频:


我们从客户那里了解到,他们在构建和管理事务型数据库与数据仓库之间的 ETL 管道上花费了大量的时间和资源。举个例子,假设有一家全球制造公司,在十几个国家拥有工厂,并使用一系列 Aurora 数据库集群管理每个国家存储订单和库存数据。当公司高层想要查看所有订单和库存时,数据工程师必须为每个 Aurora 集群构建单独的数据管道,将数据整合到一个中心数据仓库中,以便数据分析师可以查询整合后的数据集。为了实现这一点,数据集成团队必须编写代码来连接到12个不同的集群,并分别管理和测试12个生产环境管道。团队部署代码后,还需要不断监控和调整该管道以优化性能,而且一旦有任何变化,就需要在12个不同的地方进行更新。这是一项非常重复冗长的工作。


Amazon Aurora 和 Amazon Redshift

之间不再需要定制的 ETL 管道


Aurora 与 Amazon Redshift 的 Zero ETL 集成将 Aurora 的事务数据与 Amazon Redshift 的分析能力结合在一起。这样一来,构建和管理 Aurora 与 Amazon Redshift 之间的定制 ETL 管道的工作量大大减少。


和传统系统中的“数据孤岛”不同,用户必须在统一分析和性能之间做出权衡;而现在数据工程师可以将多个 Aurora 数据库集群中的数据复制到同一个或新的 Amazon Redshift 实例中,以获得跨多个应用程序或分区的全面洞察。Aurora 中的更新会自动连续地复制到 Amazon Redshift,这样数据工程师就可以几乎实时地获取最新的信息。整个系统是无服务器的,可以根据数据量的大小动态地上下扩展,因此,企业无需管理基础设施。现在,企业可以在 Aurora 中真正实现快速、规模化地事务分析以及 Amazon Redshift 中的可扩展分析,所有这些功能都集成在一个无缝的系统中。通过几乎实时访问事务数据,企业可以充分利用 Amazon Redshift 的分析能力,如机器学习、物化视图、数据共享,以及对多个数据存储和数据湖的联邦访问,从事务及其他数据中获取洞察。


持续提高 Zero ETL 的性能是亚马逊云科技的持续性目标,例如,我们的早期就使用 Zero ETL 预览版的客户观察到,他们的 Amazon Aurora MySQL 数据库每分钟产生数十万个事务,这些事务在不到10秒的时间内就能出现在他们的 Amazon Redshift 数据仓库中。在这之前,他们将数据从 ETL 管道移动到 Amazon Redshift 的过程需要超过2个小时的延迟时间。通过 Aurora 和 Redshift 之间的 Zero ETL 集成,他们现在可以实现几乎实时的分析。


Zero ETL 使数据工程师能够在使用过程中直接集成服务并直接查询各种数据存储,从而使他们能够专注于从数据中创造价值,而不是花费时间和资源来构建数据管道。亚马逊云科技将继续致力于构建 Zero ETL 未来,助力企业走向数据驱动的业务增长之路。




客户故事


北京乐城堡科技有限公司成立于2013年,团队成员分布于美国加州、中国北京及上海,是一家面向全球的移动互联网公司,公司在深入研究细分游戏市场的基础上,结合对深度用户体验的理解,专注于智能手机游戏及应用的研发和发行。


乐城堡采用 Amazon Redshift 产品作为企业的核心数据仓库服务,通过将用户行为的埋点数据写入到 Amazon Managed Streaming for Apache Kafka(MSK),结合 Amazon Redshift 内置的 Streaming Ingestion  技术能够将数据以准实时方式的写入到 Amazon Redshift,并在此基础之上开展后续所需的数据分析。


Amazon MSK 作为全托管、高可用的 Apache Kafka 服务,帮助我们快速构建流式传输的管道,将之前端到端的数据传输延迟从分钟级提升到秒级,使得实时摄取和处理流数据变得简单高效。Amazon Redshift 作为企业级数据仓库,能够容纳规模至 PB 级别的数据,实现复杂查询,保证游戏运营人员能快速获取所需的数据与统计信息,无论是规模还是并发性能,对于业务的持续增长我们都能保持信心。

李明

北京乐城堡科技有限公司数据总监








Amazon Aurora zero-ETL integration with 

Amazon Redshift 现已支持公开预览!


马上点击“阅读原文”

了解使用 Amazon Aurora 与 Amazon Redshift 的 Zero ETL

集成实现准实时分析的更多信息

让我们共同见证亚马逊的一小步

云计算的一大步


文章转载自亚马逊云科技,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论