

Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务,可提供业界良好的可扩展性、数据可用性、安全性和性能。这意味着各种规模和行业的客户都可以使用它来存储和保护各种使用案例(例如湖内数仓、网站、移动应用程序、备份和还原、存档、企业级应用程序、IoT 设备和大数据分析)的任意量的数据。
除了低成本存储数据,支持云原生应用程序的运行,备份和还原关键数据,构建数据湖等基本功能之外,Amazon S3 还具备很多高级功能,例如生命周期管理、Amazon S3 Select、Amazon Athena、Amazon Object Lambda 等,以应对数据子集检索、报表生成、图片处理等需求。这些功能为用户基于 Amazon S3 创建更复杂的应用奠定了基础。
前两期带大家了解了 Amazon Lambda 函数在 Amazon S3 对象存储上的应用(点击回顾内容)、基于 Amazon S3 生命周期管理的存储优化及使用 Amazon S3 select 筛选检索数据(点击回顾内容),本期我们将详细介绍 基于 Amazon S3 的数据湖分析系统介绍,带您加深对对象存储的认识。精彩内容请往下看~
基于 Amazon S3 的数据湖分析系统介绍

解决方案
● 解决的问题
数据源种类繁多。
频繁变动的 Schema 结构。
需要快速查询时的成本压力。
组织内越来越多的分析需求。
支持包括托管服务、自建服务、数据中心服务等各种数据源。
采用读取型 Schema,分析时写入。
按需分析,只需较低存储成本即可实现更快速的查询。
分析工具确保数据科学家、数据开发人员和业务分析师都能使用。
将传统数据分析能力扩展到了机器学习、预测分析、数据发现和分析等邻域。
数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。
基于 Amazon S3 和 Amazon Athena 数据湖系统是用户搭建数据分析系统的高效方案之一。
Amazon Web Services 的数据湖可帮助您打破数据孤岛,以最大限度地增加端到端数据洞察。
通过将 Amazon Simple Storage Service(Amazon S3)作为您的数据湖基础,您可以利用 Amazon Web Services 分析服务来支持您需要的数据,从数据摄取、移动和存储再到大数据分析、流式分析、商业智能、机器学习(ML)等,所有这些都具有最佳的性价比。
Amazon S3 是构建数据湖的最佳场所,因为它具有无与伦比的持久性、可用性、可扩展性、安全性、合规性和审计功能。
通过 Amazon Lake Formation,您可以在几天而不是几个月内轻松构建安全数据湖。然后,Amazon Glue 允许您在数据湖与专用数据和分析服务之间进行无缝数据移动。
Amazon Athena 是一种交互式查询服务,让您能够轻松使用标准 SQL 分析 Amazon S3 中的数据。Amazon Athena 没有服务器,因此您无需管理任何基础设施,且只需为您运行的查询付费。
Amazon Athena 简单易用。只需指向您存储在 Amazon S3 中的数据,定义架构并使用标准 SQL 开始查询,就可在数秒内获取最多的结果。使用 Amazon Athena,无需执行复杂的 ETL 作业来为数据分析做准备。这样一来,具备 SQL 技能的任何人都可以轻松快速地分析大规模数据集。
Amazon S3 提供了海量的数据存储服务,Amazon Athena 又能对广泛的数据服务提供内建的查询支持,以此构建的数据湖解决方案可以最大化的满足客户对于数据分析的需要。
讲师介绍
沈
城
伟
推荐阅读

Tech Camp | 实操攻略!基于 Amazon S3 构建网站

Tech Camp | 基于 Amazon SageMaker 构建推荐系统

Tech Camp | 如何使用 Amazon SageMaker 构建图像识别平台





