英文链接:
https://www.guru99.com/data-warehousing.html
翻译:年少有为
什么是数据仓库?
数据仓库定义为一种用于收集和管理来自各种来源的数据以提供有意义的业务见解的技术。它是技术和组件的结合,有助于战略性地使用数据。
它是企业为查询和分析而不是事务处理而设计的大量信息的电子存储。这是将数据转换为信息并及时将其提供给用户以产生影响的过程。
本文重点介绍如下内容:
•什么是数据仓库?•数据仓库的历史•数据仓库如何工作?•数据仓库的类型•数据仓库的一般阶段•数据仓库的组成•谁需要数据仓库?•数据仓库的用途是什么?•实施数据仓库的步骤•实施数据仓库的最佳实践•为什么我们需要数据仓库?优点缺点•数据仓库的未来•数据仓库工具
决策支持数据库(数据仓库)与组织的运营数据库分开维护。但是,数据仓库不是产品而是环境。它是信息系统的体系结构,可为用户提供当前和历史决策支持信息,而这些信息很难在传统操作数据存储中访问或呈现。
数据仓库是构建用于数据分析和报告的BI系统的核心。
你们都知道,清单系统的3NF设计数据库很多都具有相互关联的表。例如,有关当前库存信息的报告可以包含12个以上的加入条件。这会迅速减慢查询和报告的响应时间。数据仓库提供了一种新设计,可以帮助减少响应时间并帮助提高报表和分析查询的性能。
数据仓库系统也被称为以下名称:
•决策支持系统(DSS)•行政信息系统•管理信息系统•商业智能解决方案•分析应用•数据仓库
数据仓库的历史
数据仓库使用户了解并增强其组织的绩效。随着计算机系统变得越来越复杂,并且需要处理越来越多的信息,对数据存储的需求也在不断发展。但是,数据仓库并不是什么新鲜事物。
以下是数据仓库演进中的一些关键事件-
•1960年-达特茅斯(Dartmouth)和通用米尔斯(General Mills)在一个联合研究项目中,发展了术语维度和事实。•1970年-尼尔森(Nielsen)和IRI推出了用于零售的维度数据集市。•1983年-Tera Data Corporation推出了专门为决策支持而设计的数据库管理系统•数据仓库始于1980年代后期,当时IBM员工Paul Murphy和Barry Devlin开发了业务数据仓库。•但是,真正的概念是由Inmon Bill提出的。他被认为是数据仓库之父。他撰写了有关仓库和企业信息工厂的建设,使用和维护的各种主题。
数据仓库如何工作?
数据仓库用作中央存储库,信息从一个或多个数据源到达。数据从事务系统和其他关系数据库流入数据仓库。
数据可能是:
•结构化的•半结构化•非结构化数据
数据经过处理,转换和提取,以便用户可以通过商业智能工具,SQL客户端和电子表格访问数据仓库中的已处理数据。数据仓库将来自不同来源的信息合并到一个综合数据库中。
通过将所有这些信息合并到一个位置,组织可以更全面地分析其客户。这有助于确保已考虑所有可用信息。数据仓库使数据挖掘成为可能。数据挖掘正在寻找可能导致更高的销售和利润的数据模式。
数据仓库的类型
数据仓库的三种主要类型是:
1.企业数据仓库:
企业数据仓库是一个集中式仓库。它为整个企业提供决策支持服务。它提供了用于组织和表示数据的统一方法。它还提供了根据主题对数据进行分类并根据这些划分进行访问的功能。
2.运营数据存储:
当数据仓库和OLTP系统都不支持组织报告需求时,操作数据存储(也称为ODS)只需要数据存储。在ODS中,数据仓库是实时刷新的。因此,广泛用于日常活动,例如存储员工记录。
3.数据集市:
数据集市是数据仓库的子集。它是针对特定业务(例如销售,财务,销售或财务)而专门设计的。在独立的数据集市中,数据可以直接从源收集。
数据仓库的一般阶段
早先,组织开始相对简单地使用数据仓库。但是,随着时间的流逝,开始更加复杂地使用数据仓库。
以下是使用数据仓库的一般阶段:
离线运营数据库:
在此阶段,数据只是从操作系统复制到另一台服务器。这样,加载,处理和报告复制的数据不会影响操作系统的性能。
离线数据仓库:
数据仓库中的数据会定期从操作数据库中进行更新。映射并转换Datawarehouse中的数据以满足Datawarehouse的目标。
实时数据仓库:
在此阶段,只要在操作数据库中发生任何事务,就将更新数据仓库。例如,航空公司或铁路订票系统。
集成数据仓库:
在此阶段,当操作系统执行事务时,将连续更新数据仓库。然后,数据仓库将生成事务,这些事务将被传递回操作系统。
数据仓库的组成
数据仓库的四个组成部分是:
负载管理器:
负载管理器也称为前端组件。它执行与提取数据并将数据加载到仓库相关的所有操作。这些操作包括为准备输入数据仓库而准备的数据的转换。
仓库管理器:
仓库管理器执行与仓库数据管理相关的操作。它执行诸如分析数据以确保一致性,创建索引和视图,生成非规格化和聚合,转换和合并源数据以及归档和烘焙数据之类的操作。
查询管理器:
查询管理器 也称为后端组件。它执行与用户查询管理相关的所有操作操作。该数据仓库组件的操作是对适当表的直接查询,以安排查询的执行时间。
最终用户访问工具:
它分为五个不同的组,例如1.数据报告2.查询工具3.应用程序开发工具4. EIS工具,5. OLAP工具和数据挖掘工具。
谁需要数据仓库?
所有类型的用户都需要数据仓库,例如:
•依赖海量数据的决策者•使用定制的复杂过程从多个数据源获取信息的用户。•希望使用简单技术访问数据的人也使用它•对于那些想要系统地进行决策的人来说,这也是至关重要的。•如果用户希望在大量数据上实现快速性能,这对于报表,表格或图表是必不可少的,那么数据仓库就证明是有用的。•数据仓库是第一步,如果您想发现数据流和分组的“隐藏模式”。
数据仓库的用途是什么?
以下是使用数据仓库的最常见部门:
航空公司:
在航空公司系统中,它用于运营目的,例如机组人员分配,航线获利能力分析,飞行常客计划促销等。
银行业:
它广泛用于银行部门,以有效管理桌面上可用的资源。很少有银行还将其用于市场研究,产品和运营绩效分析。
卫生保健:
医疗保健部门还使用数据仓库来制定战略和预测结果,生成患者的治疗报告,与配套的保险公司,医疗救助服务等共享数据。
公共部门:
在公共部门,数据仓库用于情报收集。它可以帮助政府机构维护和分析每个人的税收记录,健康政策记录。
投资和保险部门:
在该部门中,仓库主要用于分析数据模式,客户趋势以及跟踪市场动向。
零售链:
在零售链中,数据仓库被广泛用于分销和营销。它还有助于跟踪商品,客户购买模式,促销活动,还可以用于确定定价策略。
电信:
在该行业中,数据仓库用于产品促销,销售决策和分销决策。
酒店业:
该行业利用仓库服务来设计和评估他们想要根据客户的反馈和出行方式确定目标客户的广告和促销活动。
实施数据仓库的步骤
解决与Datawarehouse实施相关的业务风险的最佳方法是采用以下三种策略
•企业策略:在此我们确定技术,包括当前的体系结构和工具。我们还确定事实,维度和属性。数据映射和转换也将通过。•分阶段交付:应根据主题领域分阶段实施数据仓库。相关业务实体(例如预订和计费)应首先实现,然后再相互集成。•迭代原型:应当以迭代的方式开发和测试Datawarehouse,而不是采用大规模的实现方法。
这是Datawarehouse实施及其交付成果中的关键步骤。

实施数据仓库的最佳实践
•制定计划以测试数据的一致性,准确性和完整性。•数据仓库必须良好集成,定义良好并加盖时间戳。•在设计Datawarehouse时,请确保使用正确的工具,坚持生命周期,注意数据冲突,并准备好学习自己的错误。•切勿更换操作系统和报告•不要在提取,清理和加载数据上花费太多时间。•确保让所有利益相关者(包括业务人员)参与到Datawarehouse实施过程中。确定数据仓库是一个联合/团队项目。您不想创建对最终用户无用的数据仓库。•为最终用户准备培训计划。
为什么我们需要数据仓库?优点缺点
数据仓库的优势:
•数据仓库使业务用户可以在一处快速地从某些来源快速访问关键数据。•数据仓库提供有关各种跨职能活动的一致信息。它还支持临时报告和查询。•数据仓库有助于集成许多数据源,以减轻生产系统的压力。•数据仓库有助于减少分析和报告的总处理时间。•重组和集成使用户可以更轻松地用于报告和分析。•数据仓库使用户可以在一个地方从多个源访问关键数据。因此,它节省了用户从多个源中检索数据的时间。•数据仓库存储大量历史数据。这可以帮助用户分析不同的时间段和趋势以做出未来的预测。数据仓库的缺点:•对于非结构化数据而言,这不是理想的选择。•数据仓库的创建和实施肯定会造成时间混乱。•数据仓库可以相对过时•难以在数据类型和范围,数据源模式,索引和查询中进行更改。•数据仓库看似容易,但实际上,对于普通用户而言,它太复杂了。•尽管在项目管理方面做出了最大的努力,但数据仓库项目的范围将始终扩大。•有时仓库用户会制定不同的业务规则。•组织需要将大量资源用于培训和实施目的。
数据仓库的未来
•法规约束的变化可能会限制组合不同数据源的能力。这些不同的来源可能包含难以存储的非结构化数据。•随着数据库规模的增长,构成一个大型数据库的估算值也在不断增长。建立和运行不断增加的数据仓库系统非常复杂。当今可用的硬件和软件资源不允许在线保存大量数据。•多媒体数据不能轻易地作为文本数据进行处理,而文本信息可以通过当今可用的关系软件来检索。这可能是一个研究课题。
数据仓库工具
市场上有许多数据仓库工具。这里是一些最突出的例子:
1.MarkLogic:
MarkLogic是有用的数据仓库解决方案,可使用一系列企业功能使数据集成更容易,更快。该工具有助于执行非常复杂的搜索操作。它可以查询不同类型的数据,例如文档,关系和元数据。
http://developer.marklogic.com/products
2.Oracle:
Oracle是行业领先的数据库。它为本地和云提供了广泛的数据仓库解决方案选择。它通过提高运营效率来帮助优化客户体验。
https://www.oracle.com/index.html
3.Amazon RedShift:
Amazon Redshift是数据仓库工具。它是使用标准SQL和现有BI工具分析所有类型数据的简单且经济高效的工具。它还使用查询优化技术对PB级结构化数据运行复杂的查询。
https://aws.amazon.com/redshift/?nc2=h_m1
这是有用的Datawarehouse工具的完整列表。
结论
•数据仓库用作中央存储库,其中信息来自一个或多个数据源。•数据仓库的三种主要类型是企业数据仓库,运营数据存储和数据集市。•数据仓库的一般状态是脱机操作数据库,脱机数据仓库,实时数据仓库和集成数据仓库。•数据仓库的四个主要组件是负载管理器,仓库管理器,查询管理器,最终用户访问工具•数据仓库用于航空,银行,医疗保健,保险,零售等各种行业。•实施Datawarehosue是3分策略,即。企业战略,分阶段交付和迭代原型设计。•数据仓库使业务用户可以在一处快速地从某些来源快速访问关键数据。

专注互联网前沿技术
数据仓库|大数据|机器学习|人工只能
作者简介:就职于一线互联网公司
目前主要从事flink实时流开发
喜欢作者文章的,可以关注一波+++




