如何设计:
每一步都基于
•方法论
•技术
•工具
•技巧
•与第三方关系
•项目管理
全部针对EDW项目和系统进行适应性定制化
启动与配置初始化:启动并建立工作组
讨论方法步骤,介绍计划安排
介绍每个参与人员及其角色 (业务,IT,厂商)
展示说明与特定业务用户相关的基本逻辑模型主题域
就项目范围达成一致
就时间、工作安排达成一致,确定例会时间安排和工作地点
确认项目范围:确认业务规模与需求
按照项目大小…
通常采用一次与1-3个业务用户的小型会议
就其需要的数据及需要这些数据的原因达成一致
日常工作中如何使用DW的数据?需要利用数据回答什么业务问题
对新数据的需求(评分、建模、历史),或者不同的数据视图需求、其它系统对数据的需求等
确定是否需要第三方应用,是否需要随机查询,抑或是否倾向特定工具喜欢?
对数据安全的要求
数据质量的已知问题
框定并规划逻辑的数据模型:LDM – 客户化数据模型
基于已有的LDM,如金融行业逻辑数据模型,基于与业务用户的讨论结果,优化、裁剪形成合适的逻辑的数据模型
保持数据模型纯粹在逻辑层面
尽可能遵从至少3NF
对任何参考数据进行确定
记录关键字
针对基础层和语意层尝试确定本项目中的范围
审视研究源数据:高级别层面源系统分析及数据探索
基于了解的业务范围,审视研究源数据
-电子档的数据是否具备?获取的难度?
-是否存在历史数据及其数据量
通过工具快速检查数据质量
在系统及主题域层面,针对主要实体进行映射
修改并形成新的LDM:修改LDM
如果是在已有LDM上扩展,新的业务数据需要整合到已有模型
基于源系统分析,针对新数据分布到现有模型的可能性和实践,需要对已有模型做出调整
数据质量问题改善计划:识别并解决数据质量问题
如果存在数据质量问题,需要与IT及业务用户就如何修正这些问题制定方案计划
-是否数据缺少、错误或者不一致?
-是否应该在源系统进行修正?
-建立数据质量评价过程
-定义ETL的例外规则
-建立数据质量报告和行动规划,确定人员组织
设计物理的数据模型:设计PDM–将LDM转换为PDM
将LDM转换为物理基础层面的PDM,考虑:
-性能
-安全
-地理区域
-访问该层的用户及应用
尽可能保留该层为正则化结构
构建数据迁移方案:ETL – 源数据抽取并加载到数据仓库
开发抽取、加载和转换程序,进行基础数据层的数据部署
考虑:数据质量、数据轮廓、数据条件、数据核对和重新处理
数据上线
进行数据挖掘和数据评分
建立数据集市、建立视图
测试并分析性能,适当在语法层面和基础层面进行调整
建立报告、开发应用,实施部署第三方应用培训
建立SLA,启动数据仓库监管,包括数据治理着手质量提升
项目期间的其它工作
整个项目期间,都要注重文档工作
数据字典、元数据等经常性的检查、里程碑确认、检查点检查
项目管理—资源、人员、项目办公室、报告…等等




