暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据库科普系列(二):宽表

广东省国土资源技术中心 2022-12-07
6286


近年来,随着“数字政府”改革建设不断深化,依据业务融合关系开展多类数据的融合治理,是实现跨系统、跨部门、跨业务协同管理的重要技术手段。宽表作为数据仓库的一项重要建模技术,具有高效的查询分析效率,是数据治理中常用的数据组织形式。那么到底什么是宽表呢?今天小编为大家介绍宽表及其相关技术。




一、什么是宽表


<

宽表从字面上的意思就是字段(列)比较多的数据库表,是通过关联字段将多个业务主题相关的数据表进行挂接组装为一张大表,实现业务实体不同维度属性信息的统一存储。


例如开展不动产登记资料查询业务,需要获取权利人、证件号、不动产产权证号、坐落地址、规划用途、房屋性质、建筑面积、抵押登记状态等信息。


而在不动产数据库中,上述信息可能分布在购房人信息表、自然幢属性表、户属性表、房地产权属性表、抵押权属表等多个库表中。用户每一次查询都需要在上述的多张数据表中按照关联字段逐一跨表查询(如图1所示),这种操作在数据库中是非常耗时的。


▲图1 多表关联查询图(模拟数据)


而宽表则是按照不动产登记资料查询业务的需求,提前将相关业务数据表进行抽取、组装,串接为以权利人为实体的一张信息集成表,包含了人、房、地等多元信息(如图2所示),因此不动产登记资料查询只在单表中即可完成。


▲图2 不动产权利人宽表(模拟数据)



二、为什么要用宽表


<

1

宽表查询更便捷

宽表提前处理好多表间的关联,查询人员无需了解数据库表间的关联关系即可实现数据分析,这也避免了进行关联查询时可能出现的逻辑错误。


2

宽表查询效率更高

宽表设计的目的就是为了提高查询的效率,将相关字段都放在同一张数据库表中,避免了大量的关联串接,增加了查询效率。例如:在PG数据库中,1000多万条数据,使用宽表可以提高约25倍查询效率。

▲图3 查询效率对比


3

宽表信息更丰富

宽表的设计无需按照数据库三范式进行,而是按照主题或者专题的应用需求,将实体对象相关的指标、维度、属性等各类型的信息都放在同一张表进行存储,通常作为数据仓库中DWS(汇总数据层)。


例如上文中的不动产权利人宽表,除增加不动产登记数据库中的库表外,还可以根据业务需求,增加租房信息、户籍信息、收入信息等,为后续开展业务查询、在线数据分析(OLAP)、数据分发、数据挖掘等提供基础。



三、宽表存在的问题


<

1

数据冗余

多表关联生成宽表时,有可能存在一对多的关系,导致产生冗余数据。比如:户表中有面积字段,购房人表和户表通过单元号进行关联时,户表是一对多的关系,那么在宽表中的面积字段就会出现重复,如果直接通过面积字段进行汇总统计就会出错(如图4所示)。

▲图4 宽表冗余


2

维护成本高

多表关联生成宽表后,根据业务场景的变化,宽表中字段可能会出现增减的情况。另外,随着数据更新可能出现业务库表与宽表数据之间出现数据不一致的问题。



四、如何优化宽表


<

1

分区表

在实际的应用中,由于业务数据的不断迭代,宽表可能达到上千万行甚至上亿行,存储压力增加,性能受到极大影响,此时需采用分区表的方式将一个表分成多个小的部分,减小数据冗余带来的存储压力,提高查询吞吐量。


如利用唯一ID、业务主键、行政区划等字段,将数据表拆分为多个子表,从而实现数据在物理上的分区。例如将不动产查询宽表,按照ID序号,拆分为3张数据库表,查询时多个子表同步查询,查询更快,提升宽表查询效率。


▲图5 宽表分区


2

索引优化

如果将数据库表比喻为一本书,创建数据库索引就相当于创建书的目录。创建索引能够实现对目标数据的定位,从而到达快速检索的目的。


针对宽表应用较多的任意字段组合查询,采用每列独立索引,保障读写性能的均衡。例如,在PG数据库中,针对宽表进行索引创建优化后,性能提升约2倍。

▲图6 索引优化后效率对比


3

使用列式存储

使用列存储(如Hbase)有利于对宽表进行数据压缩,同时可以提升数据读取效率。其原因:一是数据库表中同一列数据类型一致,采用压缩算法可以达到更高的压缩率;二是列存储每次读取的数据是集合的一段或者全部,能够提高读取效率。



五、宽表应用场景


<

 

接下来,省国土资源技术中心将积极探索宽表技术应用场景,利用宽表技术优势为业务工作中的查询、分析等提供更高效的技术服务保障。


往期回顾

数据库科普系列(一):图数据库技术浅析





-THE END-


通讯员|  刘阳、俞建

编  辑 |  李赞红

校  核 |  林超

技术中心宣传工作小组  宣


文章转载自广东省国土资源技术中心,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论