暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据仓库设计建模

原创 wzf0072 2022-12-01
108

数据仓库设计建模


设计步骤

1)选择合适的主题(所要解决问题的领域)

2)明确定义事实表

3)确定和确认维

4)选择事实表

5)计算并存储事实表中的衍生数据段

6)转换维表

7)数据库数据采集

8)根据需求刷新维表

9)确定查询优先级和查询模式。

硬件平台:数据仓库的硬盘容量通常要是操作数据库硬盘容量的2-3倍。通常大型机具有更可靠的性能和和稳定性,也容易与历史遗留的系统结合在一起;而PC服务器或UNIX服务器更加灵活,容易操作和提供动态生成查询请求进行查询的能力。选择硬件平台时要考虑的问题:是否提供并行的I/O吞吐?对多CPU的支持能力如何?

数据仓库DBMS:他的存储大数据量的能力、查询的性能、和对并行处理的支持如何。

网络结构:数据仓库的实施在那部分网络段上会产生大量的数据通信,需不需要对网络结构进行改进。

建模划分

数据仓库的数据建模大致分为四个阶段:

1.业务建模,这部分建模工作,主要包含以下几个部分:

  • 划分整个单位的业务,一般按照业务部门的划分,进行各个部分之间业务工作的界定,理清各业务部门之间的关系。

  • 深入了解各个业务部门内的具体业务流程并将其程序化。

  • 提出修改和改进业务部门工作流程的方法并程序化。

  • 数据建模的范围界定,整个数据仓库项目的目标和阶段划分。

2.领域概念建模,这部分得建模工作,主要包含以下几个部分:

  • 抽取关键业务概念,并将之抽象化。

  • 将业务概念分组,按照业务主线聚合类似的分组概念。

  • 细化分组概念,理清分组概念内的业务流程并抽象化。

  • 理清分组概念之间的关联,形成完整的领域概念模型。

3.逻辑建模,这部分的建模工作,主要包含以下几个部分:

  • 业务概念实体化,并考虑其具体的属性

  • 事件实体化,并考虑其属性内容

  • 说明实体化,并考虑其属性内容

4.物理建模,这部分得建模工作,主要包含以下几个部分:

  • 针对特定物理化平台,做出相应的技术调整

  • 针对模型的性能考虑,对特定平台作出相应的调整

  • 针对管理的需要,结合特定的平台,做出相应的调整

  • 生成最后的执行脚本,并完善之。

建立步骤

步骤

1)收集和分析业务需求

数据仓库价值曲线数据仓库价值曲线

2)建立数据模型和数据仓库的物理设计

3)定义数据源

4)选择数据仓库技术和平台

5)从操作型数据库中抽取、净化、和转换数据到数据仓库

6)选择访问和报表工具

7)选择数据库连接软件

8)选择数据分析和数据展示软件

9)更新数据仓库

数据转换工具

1)数据转换工具要能从各种不同的数据源中读取数据。

2)支持平面文件索引文件、和legacyDBMS。

3)能以不同类型数据源为输入整合数据。

4)具有规范的数据访问接口

5)最好具有从数据字典中读取数据的能力

6)工具生成的代码必须是在开发环境中可维护的

7)能只抽取满足指定条件的数据,和源数据的指定部分

8)能在抽取中进行数据类型转换和字符集转换

9)能在抽取的过程中计算生成衍生字段

10)能让数据仓库管理系统自动调用以定期进行数据抽取工作,或能将结果生成平面文件

11)必须对软件供应商的生命力和产品支持能力进行仔细评估

主要数据抽取工具供应商:Prismsolutions.Carleton'sPASSPORT.InformationBuildersInc.'s

EDA/SQL.SASInstituteInc.

关键问题

一般问题 (不完全是技术或文化,但很重要) 包括但不限于以下几点:

业务用户想要执行什么样的分析?

你现在收集的数据需要支持那些分析吗?

数据在哪儿?

数据的清洁度如何?

相似的数据有多个数据源吗?

什么样的结构最适合核心数据仓库 (例如维度或关系型)?

技术问题包括但不限于以下几点:

在你的网络中要流通多少数据?它能处理吗?

需要多少硬盘空间?

硬盘存储需要多快?

你会使用固态还是虚拟化的存储?


「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论