数据仓库的四个核心特点
1.面向主题
操作型数据库(Operational Database)的数据组织面向事务处理(OLTP)任务,各个业务系统之间各自分离,而数据仓库(Data WareHouse)中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
2.集成的
面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
3.相对稳定的
操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
4.反映历史变化
操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
主题(Subject)是一个抽象概念,在较高层次上将企业信息系统中数据进行综合、归类分析利用,通常每一个主题对应一个宏观分析领域,也许就是领导者的一个视角和需求。
从逻辑概念上来说,主题是对应企业中某一宏观分析领域所涉及的分析对象。
例如:"销售分析"就是一个分析领域,这个"销售分析"所涉及到的分析对象为商品、供应商、顾客、仓库等,那么数仓主题可以确定为商品主题、供应商主题、顾客主题、仓库主题;
如果"产品分析"是一个分析领域,"产品分析"所涉及到的分析对象为商品、地域、时间、类别等,那么数仓的主题确定为商品主题、地域主题、时间主题、类别主题,"产品分析"可以作为一个主题域。
数仓的主题就是对某个分析领域的概念总结,是一个高屋建瓴式的方向领导,一个数仓可以有一个主题或者多个主题。
主题是根据分析的要求确定的,这与按照数据处理或应用的要求来组织数据是不同的。
例如:对于材料供应业务,在面向数据库系统中,重点应该效率化的处理材料供应的业务处理,在面向数据分析中,重点应该放在材料供应是否及时,材料供应质量,采购渠道等维度。
数仓中,面向主题的数据组织方式,就是在较高层次上对被分析对象有一个完整、一致的描述,能刻画各个分析对象所涉及到的各项数据及数据之间的关系;
通常在建立数据仓库的数据模型中已经定义好主题。典型的主题领域包括顾客、产品、订单和财务或是其他某项事务或活动。