数据湖和数据仓库都存储数据,但是它们之间有几个关键区别。这些差异导致了不同的用例,随着数据中心的增长和扩展,这些用例可能会或可能不会满足数据中心的需求。
许多组织都希望通过数据湖和数据仓库来帮助他们从数据中获得洞察力。但是,它们不可互换,组织在为数据湖或仓库分配资源时必须考虑他们的需求。一般来说,数据湖更适合需要灵活性的组织,而仓库更适合预先确定的需求。
什么是数据湖?
数据湖是一个存储库,可以保存原始结构化和非结构化数据。数据湖通常使用扁平架构存储数据,这为用户提供了更大的数据管理灵活性。它们通常存储大数据集,并且可以支持各种模式,使它们能够处理不同格式的不同类型的数据。
数据科学家可以将它们用作推动大数据分析和数据科学应用的平台,并挖掘数据以准备和分析数据。数据湖是灵活的,因此它们更适合存储来自各种来源的数据。他们可以通过将来自不同系统的数据集组合在一个地方来打破数据孤岛。

考虑数据湖的一个好方法是想象它的名字:一个湖。就像一个湖泊可以容纳大量的水一样,数据湖可以容纳大量的原始数据。组织可以将任何类型的数据——从非结构化数据到半结构化数据等等——倒入湖中,并将所有数据集中在一个地方。这对于将数据存储在一个集中位置可能很方便,但是当数据在没有严格模式的情况下汇集在一起时,从湖中提取特定数据可能很困难。
什么是数据仓库?
数据仓库是一个存储库,可以保存由内部数据系统和外部数据源生成和提取的数据。与平面架构不同,数据仓库架构通常分为层或层,包括从操作系统中提取数据的数据集成层、清理和组织数据的数据暂存层,以及使数据可用于更多的用户不仅仅是数据科学家。
这里的关键因素是数据的组织。数据湖可以接受原始数据,而数据仓库通常设计用于存储来自多个来源的数据。仓库还使用预定义的模式来组织该数据,这使用户更容易访问和查询相关数据。它们更适合结构化数据。虽然将任何原始数据汇集到数据湖中都有其优势,但数据仓库可以提供更好的一致性和数据质量。这会直接影响分析应用程序的速度和准确性。
但是,数据仓库可能会限制组织可以使用的分析工具或业务分析软件的数量和类型,因为它们必须为每个工具明确定义模式。灵活性较低,但具有明确定义的特定需求的组织可以使用数据仓库来加速分析。
不同存储模型的数据中心用例
在检查数据湖与数据仓库以及如何使用它们时,需要考虑多种因素。决定因素不一定是哪种技术最好,而是业务需求。
需要尽可能多的访问权限来提供实时数据分析的组织可以从数据湖中受益,因为它们可以将原始数据移动到分析环境中。相反,需要保持高度组织化的数据以满足法规要求的组织可以从数据仓库中受益,因为它提供了所需的结构和轻松可视化该数据的能力。
| 数据湖 | 数据仓库 | |
数据结构 | 数据湖更适合处理以其本机格式存储的数据。当数据的目的尚未确定时,它们也更好。 | 数据仓库更适合从事务系统和预定义模式中提取的结构化数据。 |
成本 | 数据湖的成本低于数据仓库。他们通常需要较少的管理并使用成本较低的存储,从而降低成本。 | 数据仓库比数据湖成本更高,并且需要更多的管理,因为它们需要更多的计算资源来进行查询。 |
如何处理数据 | 数据遵循提取、加载和转换或 ELT,因此数据在从存储中提取后进行结构化。 | 数据遵循提取、转换和加载或 ETL,因此数据在提取之前进行结构化。 |
图式 | 模式是在数据存储后定义的。 | 模式是在数据存储之前定义的。 |
谁使用它们 | 数据湖更适合数据科学家或工程师,他们受益于查看原始格式的数据以获得业务洞察力。 | 数据仓库更适合只对 KPI 感兴趣的经理和常规操作用户。 |
数据湖非常适合执行实时分析、预测分析、自定义分析或大数据分析,以及实施机器学习项目。它们还使组织能够运行根本原因分析以追溯问题的根源。
数据仓库更适合临时分析、交易报告和数据层次维度的可见性。它们也更适合向业务用户呈现数据以及进行数据挖掘以发现数据中的模式。
组织还可以同时实施数据湖和数据仓库,以满足不同的业务需求。数据湖通常更容易构建且成本更低,因此组织始终可以从那里开始并添加数据仓库功能。
此外,组织可以构建具有混合架构的数据湖屋,以自行应对数据湖和数据仓库的挑战。
原文标题:Learn different data lake vs. data warehouse uses
原文作者:Jacob Roundy
原文链接:https://www.techtarget.com/searchdatacenter/tip/Learn-different-data-lake-vs-data-warehouse-uses




