暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

建立数据仓库

天道酬勤 2022-02-16
211

如何设计:

每一步都基于

•方法论

•技术

•工具

•技巧

•与第三方关系

•项目管理

全部针对EDW项目和系统进行适应性定制化

启动与配置初始化:启动并建立工作组

讨论方法步骤,介绍计划安排

介绍每个参与人员及其角色 (业务,IT,厂商)

展示说明与特定业务用户相关的基本逻辑模型主题域

就项目范围达成一致

就时间、工作安排达成一致,确定例会时间安排和工作地点


确认项目范围:确认业务规模与需求

按照项目大小…

通常采用一次与1-3个业务用户的小型会议

就其需要的数据及需要这些数据的原因达成一致

日常工作中如何使用DW的数据?需要利用数据回答什么业务问题

对新数据的需求(评分、建模、历史),或者不同的数据视图需求、其它系统对数据的需求等

确定是否需要第三方应用,是否需要随机查询,抑或是否倾向特定工具喜欢?

对数据安全的要求

数据质量的已知问题

框定并规划逻辑的数据模型:LDM – 客户化数据模型

基于已有的LDM,如金融行业逻辑数据模型,基于与业务用户的讨论结果,优化、裁剪形成合适的逻辑的数据模型

保持数据模型纯粹在逻辑层面

尽可能遵从至少3NF

对任何参考数据进行确定

记录关键字

针对基础层和语意层尝试确定本项目中的范围

审视研究源数据:高级别层面源系统分析及数据探索

基于了解的业务范围,审视研究源数据

-电子档的数据是否具备?获取的难度?

-是否存在历史数据及其数据量

通过工具快速检查数据质量

在系统及主题域层面,针对主要实体进行映射

修改并形成新的LDM:修改LDM

如果是在已有LDM上扩展,新的业务数据需要整合到已有模型

基于源系统分析,针对新数据分布到现有模型的可能性和实践,需要对已有模型做出调整

数据质量问题改善计划:识别并解决数据质量问题

如果存在数据质量问题,需要与IT及业务用户就如何修正这些问题制定方案计划

-是否数据缺少、错误或者不一致?

-是否应该在源系统进行修正?

-建立数据质量评价过程

-定义ETL的例外规则

-建立数据质量报告和行动规划,确定人员组织

设计物理的数据模型:设计PDM–将LDM转换为PDM

将LDM转换为物理基础层面的PDM,考虑:

-性能

-安全

-地理区域

-访问该层的用户及应用

尽可能保留该层为正则化结构

构建数据迁移方案:ETL – 源数据抽取并加载到数据仓库

开发抽取、加载和转换程序,进行基础数据层的数据部署

考虑:数据质量、数据轮廓、数据条件、数据核对和重新处理

数据上线

进行数据挖掘和数据评分

建立数据集市、建立视图

测试并分析性能,适当在语法层面和基础层面进行调整

建立报告、开发应用,实施部署第三方应用培训

建立SLA,启动数据仓库监管,包括数据治理着手质量提升

项目期间的其它工作

整个项目期间,都要注重文档工作

数据字典、元数据等经常性的检查、里程碑确认、检查点检查

项目管理—资源、人员、项目办公室、报告…等等

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论