基础理论:数据仓库
DW
的辩识
数据仓库的认识误区
提起数据仓库,现在对很多人来说并不陌生,但大多数人并未系统地读过数据仓库的经典
论著,更没有经历过成熟的数据仓库项目,因此无论他们仅仅限于探讨有关数据仓库的话
题,还是尝试数据仓库的项目,往往不解数据仓库的真谛,尝试的项目很可能是无疾而终,
甚至连数据仓库的基本概念都没有真正理解。
数据仓库是现在越来越热的话题,但大多数人,无论是客户还是开发商,往往在不明确、
不成熟的数据仓库需求与不清晰、不深刻的数据仓库知识间徘徊。一方面,很多客户积累
了大量的业务数据,总想从中得到些什么,甚至有了一些具体的想法,另一方面,一些软
件开发商在潮流的推动下,找来一些有关数据仓库的书,也学用一些有关数据仓库的软件
工具,在数据仓库项目上跃跃欲试。学费总是要花的,数据仓库的项目也是这样。但与一
些
IT
技术项目不同的是,这次学费是花了,但怎么不见迅速长进?近些年
,
我们在国内遇
到不少这样的事,客户与开发商开始是热情高涨,双方不仅投入了不菲的金钱和人力,但
结果与期望相差甚远。因此,有些人甚至开始怀疑数据仓库的技术的可行性及有效性了。
确实,从朴素意义上讲,做好哪一件也不容易,往往需要对真理的不断追求与对实践的不
断尝试,做好数据仓库是在啃一块硬骨头。我们的体会是,首先以源头开始,扎扎实实地
走每一步。急功近利的做法,跨越式地发展,尤其在数据仓库方面是终究要跌跟头的,因
为这些想法与做法不符合客观事物发展的规律!科学的数据仓库技术发展的步骤是,首先
学习数据仓库的经典知识,然后尽可能地学习数据仓库项目的成熟的技术和经验,甚至不
惜到其发源地和技术领先的国家去求经验,然后不断地自我实践,不断地总结与提高。
我们首先来看看大家在数据仓库概念上有哪些误区吧。
1.
数据仓库是个非常大的数据库。
很多人望文生义,数据既然到了仓库的量级,那肯定是非常大的数据。不错,数据仓库往
往是个海量的数据集,但它不是必要条件。在数据仓库经典定义中,也没有数据仓库是大
数据的概念。实际上,很多好的数据仓库项目,从当今的社会信息规模来看,并不是数据
量很大,但它们确实给业务分析带来了很好的效益。因此评价一个数据仓库,从来没有用
大小来衡量的。
2.
数据仓库是将所有的业务数据存在一起的。
数据仓库的一个目标是将分散的业务整合在一起的,但它往往是有目的地按分析需去实施
的,并不是将全部的业务数据统统都集成在一起,更不是像有些人完全地将所有的业务数
据集中地存储在一起的,在这里既没有有效地数据整合,也没有按分析需要去集成数据,
只是一个集中式的庞大数据堆。
3.
数据仓库是一次性的工程
我们曾经见过这样一个单位,他们骄傲地告诉我,他们做一个大的数据仓库,这项工程已
经完成了,他们会在需要的时候,到仓库中分析一些数据。开始我们产生了一个疑问,这
评论