约300页,两周可读完,推荐指数4/5。
本书介绍了数据仓库这个概念和构建过程中的各项要点。全书一共19章,最重要的是前面三章,详述了数仓的业务目标,搭建环境和设计思路。简单地说,DSS决策支持,数据粒度和主题集成是建仓之前必须考虑清楚的三个关键点。后续的章节可以根据个人喜好先跳到小结部分,了解本章概要后再决定是否需要细看。此外,最后的术语表非常重要。因为数仓的概念和工具都是英文原著,中文翻译存在不精确和引用障碍。熟记术语,才能对应上数仓系统各组成模块,技术和工具的名称。以下是重点推荐:
1. 第一章DSS决策支持系统的发展介绍了数据驱动业务的背景和演化过程。现在说得多的BI商业智能系统其实就是DSS决策支持系统的一个延伸。P11页的体系结构层次图清楚的表明了数据在操作层,原子层,部门层和个体层的特征和局限性。P13页关于数据集成形成企业视图就是数仓的本质一说非常值得肯定。这其实也是数据分析的前提,不明确主题,不了解数仓的本质,单纯把业务提升作为目标是无法实现有效数据分析功能的。这一点类似以前很多企业盲目从MIS系统向ERP系统转型的跟风。一个“大数据分析”的神话不知道坑死了多少公司。BI的核心是DSS,那么你的决策是什么?需要什么依据?多长时间要做一次决策?思考清楚这些问题,才知道自己的企业视图里要包含哪些内容,即数据。
2. 第二章数据仓库环境开篇即强调了数仓的四个基本特点:主题性,集成,非易失和随时间变化。缺一不可,那么建仓就得想清楚业务主题有哪些?需要集成哪些原始数据?数仓存储位置和方式,以及数仓的增量补充时间间隔。前两个问题涉及数据粒度,后两个问题关系到数据分区。这两个概念是建仓最关键的决策参数,直接决定了数仓的使用效率和精确度,以及数据IO性能和硬件配置。简单地说就是别买了大炮打蚊子,花了大价钱,还达不到目的。
3. 第三章设计数据仓库包含了两个重要概念:数据模型和元数据。前者分为高中底三层,从ER实体关系图,DIS数据项集合到物理存储分布。每层之间的映射关系和复杂度直接决定了数据集成的效能,反映在了数据分析的时效性和硬件资源利用率。元数据是描绘数据的数据,解释了数据结构,作用及意义。其重要性等同于数仓的索引,决定了数仓的使用效率,与数仓的主题性有直接关系。
其他章节,本人推荐了解一下第四章数仓粒度,第五章数仓技术,第十一章非结构化数据和数仓,第十三章关系模型和多维模型数据库,第十九章数仓设计的复查。




