暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据仓库解析

B端产品经理笔迹 2022-07-14
160

点击蓝字关注我们


B端产品 | 数字孪生 | 智慧城市

解决方案 | 政策文件 | 行业文件

案例分享 | 经验感悟 | 技术学习


B端产品

经理笔迹

在上一篇文章中,对数据仓库进行了一个整体的介绍,因为是根据网络上搜集到的资料进行的资源整合,有粉丝给我说有点复杂,没有理解,所以重新对上一篇的内容进行梳理,进一步做一个解析,也算是对自己学习数据仓库相关知识的一次复盘,如果理解的不到位,也希望各位有相关经验的大佬批评指正。

我们都知道现在不管是互联网企业、传统企业以及政府单位都在进行数字化转型,在数字化转型的过程中,都要依托大数据、云计算、人工智能等数字技术,对于大数据而言,离不开数据仓库的建设,

特别是对于大型企业以及政府单位,在我感兴趣的智慧城市领域,我认为同样离不开数据仓库的建设,因为智慧城市的应用需要汇集多源的异构数据,国土空间基础信息平台和CIM基础平台的作用之一都是要在自然资源以及住建领域建立各自的数字底座,在数字底座的基础上,根据各自信息化以及数字化规划,搭建相关应用,来实现数据共享,辅助管理及决策。


数据仓库建设的原因


在信息化阶段,各企事业单位为了提高工作效率,建立了各种各样的信息化系统,实现了业务的数字化,然而当时信息化系统是为了满足某一个部门或者管理目标而建设的,没有进行统一的规划,因此各个系统之间数据标准不统一,数据存储不兼容,基于这样的原因,造成了很多烟囱式的“信息孤岛”,从而造成数据的利用率和价值降低。

很多遗留下来的历史数据,全部都存储在各业务数据库当中,这些数据使用频率很低,但是又有一定的价值,又不能直接删除,历史数据的堆积,占用的业务数据的库的存储,导致系性能下降。

人工智能中机器学习,需要大量的样本数据进行模型训练,而这些样本数据对数据的质量要求也很高。

基于以上原因,希望能够通过数据仓库的建设,统一数据标准,打破信息孤岛,提高数据的利用率和利用价值,让数据充分发挥出其应有的价值。


数据仓库架构解析


在我们进行信息化建设过程中,会存以下几种情况:有些时候我们需要实时数据,用于数据分析,有些时候需要的数据并不必是实时的,只需在规定时间范围内获取数据即可,因此根据获取数据的不同时间段,数据仓库分为离线数据仓库、实时数据仓库和离线+实时数据仓库等。

在数据仓库建设的过程中, 一般都采用分层设计的思想,主要目的是希望能够呈现数据仓库清晰的数据结构,减少重复开发的工作,统一数据出口等。

 

根据上图,我们对数据仓库的建设从数据源、操作数据层,数据仓库、数据集市等进行解析。

 数据来源

数据仓库中所有数据来源于各自的业务系统,如我们要建设智慧城市的大数据中心,那么数据来源就来自企事业单位的业务系统,通过数据共享的方式将需要的数据进行进行共享。

操作数据层

数据操作层存放通过数据采集工具从各业务系统中抽取过来的数据,将数据按照原始的方式进行存储,只做数据汇集, 不对数据做任何处理,之所以保留数据的原始性,是为了防止数据在处理过程中因为各种操作失误导致数据损坏,因此需要对数据进行备份,在需要重新获取数据或者数据有其他用途时,可以重新从数据操作层提取数据。

数据仓库

数据仓库,故名思义,就是存放数据的一个仓库,试想一下我们现实生活中的仓库,也是按照一定规律和顺序进行货物摆放的,在我们需要提取某个货物时,我们能够根据检索信息很快定位到需要的货物,而数据仓库也是这样,根据一定的主题将数据进行归类摆放,在需要提取数据的时候,根据一定的规则进行数据的获取。

 数据明细层

数据明细层是为了保证数据的质量,需要对数据进行相关的处理,我们经常听到的数据治理就是在这里做得一部分工作,通过ETL等数据治理工具,将数据格式、数据标准进行统一,提高数据质量,便于在后面的操作中能够直接提取到较为干净的数据。

因为数据操作层和数据明细层,都是对原业务系统中的数据进行抽取、转换,所以这两个过程中的数据遵循数据库三范式的要求,所以叫范式建模。另外这两个过程是数据仓库建设必须要包含的部分,在这两部分基础上, 可以根据实际的需要对数据进行相关的维度建模。

在我学习的课程中我见过两种数据仓库的建模方式,第一种就是图中所示那样,在数据仓库除了数据明细层以外,还有数据中间层和数据服务层。

数据中间层

数据中间层的数据是介于数据明细层和数据服务层之间,主要是将数据从通用的维度进行建模,更加提高数据质量,这样,对于数据的一些通用性的应用,可以从数据中间层调取数据,更加方便快捷。

另外一种是没有数据中间层,直接是在数据明细层的基础上,按照各个主题进行数据建模,但是个人认为这样,减少了数据的灵活性,我还是倾向于第一种建设方案,这种方案数据利用更加高效和灵活.

数据服务层

数据服务层就是将数据按照一定主题进行建模,建模方式可以根据之前《数据仓库介绍》那篇文章中介绍的雪花模型、星型模型进行建模,形成按照各个主题建立的宽表模型,将这些模型根据主题的维度进行存储,以便后应用。

数据集市层

数据集市层就是在数据仓库中数据的基础上,将数据按照某一领域的相关主题的报表数据,用于分析,有些时候为了更好的利用和共享数据,通常是将这些数据重新导入数据库中,相关应用直接从数据数据库中直接调用数据,提高数据的共享效率和利用效率。


数据仓库的建设是一个非常复杂的工程,里面涉及很多知识点,今天是对数据仓库的整体架构和建设流程做了解析和复盘,后面会根据学习的情况,进行知识的更新和完善。


数据仓库介绍




B端产品经理笔迹

专注于自我提升和成长




文章转载自B端产品经理笔迹,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论