暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据仓库的核心特点和面向主题域的理解

原创 eygle 2019-08-30
1998

数据仓库的四个核心特点

1.面向主题

操作型数据库(Operational Database)的数据组织面向事务处理(OLTP)任务,各个业务系统之间各自分离,而数据仓库(Data WareHouse)中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关


2.集成的

面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。


3.相对稳定的

操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。


4.反映历史变化

操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。


主题(Subject)是一个抽象概念,在较高层次上将企业信息系统中数据进行综合、归类分析利用,通常每一个主题对应一个宏观分析领域,也许就是领导者的一个视角和需求。


从逻辑概念上来说,主题是对应企业中某一宏观分析领域所涉及的分析对象。

例如:"销售分析"就是一个分析领域,这个"销售分析"所涉及到的分析对象为商品、供应商、顾客、仓库等,那么数仓主题可以确定为商品主题、供应商主题、顾客主题、仓库主题;

如果"产品分析"是一个分析领域,"产品分析"所涉及到的分析对象为商品、地域、时间、类别等,那么数仓的主题确定为商品主题、地域主题、时间主题、类别主题,"产品分析"可以作为一个主题域。


数仓的主题就是对某个分析领域的概念总结,是一个高屋建瓴式的方向领导,一个数仓可以有一个主题或者多个主题。

主题是根据分析的要求确定的,这与按照数据处理或应用的要求来组织数据是不同的。

例如:对于材料供应业务,在面向数据库系统中,重点应该效率化的处理材料供应的业务处理,在面向数据分析中,重点应该放在材料供应是否及时,材料供应质量,采购渠道等维度。


数仓中,面向主题的数据组织方式,就是在较高层次上对被分析对象有一个完整、一致的描述,能刻画各个分析对象所涉及到的各项数据及数据之间的关系;

通常在建立数据仓库的数据模型中已经定义好主题。典型的主题领域包括顾客、产品、订单和财务或是其他某项事务或活动。



「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论