(1)要统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、
字长不一致,等等。
(2)进行数据综合和计算。数据仓库中的数据综合工作可以在从原有数据库抽取 数
据时生成,但许多是在数据仓库内部生成的,即进入数据仓库以后进行综合生成的。
3. 数据仓库的数据是不可更新的
数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,
一般情况下并不进行修改操作。数据仓库的数据反映的是一段相当长的时间内历史数据的
内容,是不同时点的数据库快照的集合,以及基于这些快照进行统计、综合和重组的导出
数据,而不是联机处理的数据。数据库中进行联机处理的数据经过集成输入到数据仓库中,
一旦数据仓库存放的数据已经超过数据仓库的数据存储期限,这些数据将从当前的数据仓
库中删去。因为数据仓库只进行数据查询操作,所以数据仓库管理系统相比数据库管理系
统而言要简单得多。数据库管理系统中许多技术难点,如完整性保护、并发控制等等,在
数据仓库的管理中几乎可以省去。但是由于数据仓库的查询数据量往往很大,所以就对数
据查询提出了更高的要求,它要求采用各种复杂的索引技术;同时由于数据仓库面向的是
商业企业的高层管理者,他们会对数据查询的界面友好性和数据表示提出更高的要求。
4. 数据仓库的数据是随时间不断变化的
数据仓库中的数据不可更新是针对应用来说的,也就是说,数据仓库的用户进行分
析处理时是不进行数据更新操作的。但并不是说,在从数据集成输入数据仓库开始到最终
被删除的整个数据生存周期中,所有的数据仓库数据都是永远不变的。
数据仓库的数据是随时间的变化而不断变化的,这是数据仓库数据的第四个特征。这
一特征表现在以下 3 方面:
(1)数据仓库随时间变化不断增加新的数据内容。数据仓库系统必须不断捕捉
OLTP 数据库中变化的数据,追加到数据仓库中去,也就是要不断地生成 OLTP 数据库的
快照,经统一集成后增加到数据仓库中去;但对于确实不再变化的数据库快照,如果捕捉
评论