华东师范大学学报自然科学版2014年-分布式环境中数据库模式设计实践.pdf

tinge

162

11页

2次

2023-08-31

免费下载

书书书

第

５

期

２０１４

年

９

月

华东师范大学学报（自然科学版）

ＪｏｕｒｎａｌｏｆＥａｓｔＣｈｉｎａＮｏｒｍａｌＵｎｉｖｅｒｓｉｔ

ｙ

（

ＮａｔｕｒａｌＳｃｉｅｎｃｅ

）

Ｎｏ．５

Ｓｅ

ｐ

ｔ．２０１４

文章编号：

１０００５６４１

（

２０１４

）

０５０２９０１１

分布式环境中数据库模式设计实践

庞天泽，

张晨东，

高

明，

宫学庆

（华东师范大学软件学院，上海

２０００６２

）

摘要：近年来，数据规模呈爆炸式增长，使得传统集中式数据库难以满足业务需求

．

而分布式数

据库可以将数据存储在多个节点上，具有更好的扩展性，从而可以支撑业务的不断增长

．

目前，

许多企业已经开发出了成功的分布式数据库产品，例如

Ｇｏｏ

ｇ

ｌｅＳ

ｐ

ａｎｎｅｒ

、淘宝的

ＯｃｅａｎＢａｓｅ

等

．

传统数据库模式设计中，三大范式（

１ＮＦ

、

２ＮＦ

和

３ＮＦ

）及其扩展范式能够减少数据冗余和更新

异常

，并保证数据的完整性

．

然而，在分布式架构下，严格遵循范式的模式设计可能带来查询效

率较低等问题

，而使用反范式模式设计方法通常可以有效提高查询效率

．ＯｃｅａｎＢａｓｅ

是淘宝自主

研发的分布式数据库，支持跨行跨表事务，并在

ＯＬＴＰ

中具有良好的性能，但是对于

ＯＬＡＰ

业

务，其性能并不高

．

本文将以

ＯｃｅａｎＢａｓｅ

为例，介绍如何利用反范式设计分布式数据库模式，以

改善

ＯＬＡＰ

的查询性能，并通过在

ＯｃｅａｎＢａｓｅ

上部署

ＴＰＣＨ

基准评测验证了反范式模式设计

的有效性和高效性

．

关键词：反范式；

分布式数据库；

ＯｃｅａｎＢａｓｅ

；

ＴＰＣＨ

中图分类号：

ＴＰ３９２

文献标识码：

Ａ

犇犗犐

：

１０．３９６９

／

ｊ

．ｉｓｓｎ．

１０００５６４１．２０１４．０５．０２６

收稿日期：

２０１４０７

基金项目：国家

９７３

课题（

２０１０ＣＢ７３１４０２

）

第一作者：庞天泽，男，硕士生，研究方向为分布式数据库

．Ｅｍａｉｌ

：

ｐ

ａｎ

ｇ

ｔｚ

＠

ｅｃｎｕ．ｅｄｕ．ｃｏｍ．

通信作者：宫学庆，男，教授，博士生导师，研究方向为数据库

．Ｅｍａｉｌ

：

ｘ

ｑｇ

ｏｎ

ｇ

＠

ｓｅｉ．ｅｃｎｕ．ｅｄｕ．ｃｎ．

犐犿

狆

犾犲犿犲狀狋犪狋犻狅狀狅犳犱犪狋犪犫犪狊犲狊犮犺犲犿犪犱犲狊犻

犵

狀犻狀犱犻狊狋狉犻犫狌狋犲犱犲狀狏犻狉狅狀犿犲狀狋

ＰＡＮＧＴｉａｎｚｅ

，

ＺＨＡＮＧＣｈｅｎｄｏｎ

ｇ

，

ＧＡＯＭｉｎ

ｇ

，

ＧＯＮＧＸｕｅ

ｑ

ｉｎ

ｇ

（

犛狅

犳

狋狑犪狉犲犈狀

犵

犻狀犲犲狉犻狀

犵

犐狀狊狋犻狋狌狋犲

，

犈犪狊狋犆犺犻狀犪犖狅狉犿犪犾犝狀犻狏犲狉狊犻狋

狔

，

犛犺犪狀

犵

犺犪犻

２０００６２

，

犆犺犻狀犪

）

犃犫狊狋狉犪犮狋

：

Ｒｅｃｅｎｔｌ

ｙ

，

ｗｅｈａｖｅｗｉｔｎｅｓｓｅｄａｎｅｘ

ｐ

ｏｎｅｎｔｉａｌｉｎｃｒｅａｓｅｉｎｔｈｅａｍｏｕｎｔｏｆｄａｔａ．Ｉｔｒｅｓｕｌｔｓ

ｉｎａ

ｐ

ｒｏｂｌｅｍｔｈａｔａｃｅｎｔｒａｌｉｚｅｄｄａｔａｂａｓｅｉｓｈａｒｄｔｏｓｃａｌｅｕ

ｐ

ｔｏｔｈｅｍａｓｓｉｖｅｂｕｓｉｎｅｓｓｒｅ

ｑ

ｕｉｒｅｍｅｎｔｓ．

Ａｄｉｓｔｒｉｂｕｔｅｄｄａｔａｂａｓｅ

（

ＤＤＢ

）

ｉｓａｎａｌｔｅｒｎａｔｉｖｅｔｈａｔｃａｎｂｅｓｃａｌａｂｌｅｔｏｔｈｅｌａｒ

ｇ

ｅｓｃａｌｅａ

ｐｐ

ｌｉｃａｔｉｏｎｓ

ｂ

ｙ

ｄｉｓｔｒｉｂｕｔｉｎ

ｇ

ｔｈｅｄａｔａｔｏｍｕｌｔｉｎｏｄｅｓｅｒｖｅｒ．Ｎｏｗ

，

ｍａｎ

ｙ

ｅｎｔｅｒ

ｐ

ｒｉｓｅｓｈａｖｅｓｕｃｃｅｓｓｆｕｌｌ

ｙ

ｉｍ

ｐ

ｌｅ

ｍｅｎｔｅｄｓｏｍｅｄｉｓｔｒｉｂｕｔｅｄｄａｔａｂａｓｅｓ

，

ｓｕｃｈａｓＧｏｏ

ｇ

ｌｅＳ

ｐ

ａｎｎｅｒａｎｄＴａｏＢａｏＯｃｅａｎＢａｓｅ．Ｉｎｔｈｅｔｈｅｏ

ｒ

ｙ

ｏｆｔｈｅｄｅｓｉ

ｇ

ｎａｔｉｏｎｏｆｔｒａｄｉｔｉｏｎａｌｄａｔａｂａｓｅ

，

ｄｉｆｆｅｒｅｎｔｎｏｒｍａｌｆｏｒｍｓｒｅｄｕｃｅｔｈｅｏ

ｐ

ｅｒａｔｉｏｎａｌｅｘｃｅ

ｐ



ｔｉｏｎａｎｄｄａｔａｒｅｄｕｎｄａｎｃ

ｙ

，

ａｎｄａｌｓｏｅｎｓｕｒｅｔｈｅｄａｔａｉｎｔｅ

ｇ

ｒｉｔ

ｙ

．Ｈｏｗｅｖｅｒ

，

ａｓｃｈｅｍａｄｅｓｉ

ｇ

ｎｓｔｒｉｃｔｌ

ｙ

ｆｏｌｌｏｗｉｎ

ｇ

ｔｈｅｎｏｒｍａｌｆｏｒｍｓｌｅａｄｓｔｏａｎｉｎｅｆｆｉｃｉｅｎｔｌ

ｙ

ｄｉｓｔｒｉｂｕｔｅｄｄａｔａｂａｓｅｓ

ｙ

ｓｔｅｍｂｅｃａｕｓｅｏｆｔｈｅ

ｌａｒ

ｇ

ｅａｍｏｕｎｔｏｆｄｉｓｔｒｉｂｕｔｅｄｒｅｌａｔｉｏｎａｌｏ

ｐ

ｅｒａｔｉｏｎｓ．Ｆｏｒｔｕｎａｔｅｌ

ｙ

，

ｄｅｎｏｒｍａｌｉｚａｔｉｏｎｃａｎｓｉ

ｇ

ｎｉｆｉｃａｎｔｌ

ｙ

ｉｍ

ｐ

ｒｏｖｅｔｈｅ

ｑ

ｕｅｒ

ｙ

ｅｆｆｉｃｉｅｎｃ

ｙ

ｂ

ｙ

ｒｅｄｕｃｉｎ

ｇ

ｔｈｅｎｕｍｂｅｒｏｆｒｅｌａｔｉｏｎｓａｎｄｔｈｅａｍｏｕｎｔｏｆｔｈｅｄｉｓｔｒｉｂｕ

ｔｅｄｒｅｌａｔｉｏｎａｌｏ

ｐ

ｅｒａｔｉｏｎｓ．ＯｃｅａｎＢａｓｅ

，

ａｄｉｓｔｒｉｂｕｔｅｄｄａｔａｂａｓｅ

，

ｉｓｉｍ

ｐ

ｌｅｍｅｎｔｅｄｂ

ｙ

ＴａｏＢａｏａｎｄｈａｓ

ｈｉ

ｇ

ｈ

ｐ

ｅｒｆｏｒｍａｎｃｅｆｏｒＯＬＴＰ

，

ｒａｔｈｅｒｔｈａｎＯＬＡＰ．Ｉｎｔｈｉｓ

ｐ

ａ

ｐ

ｅｒ

，

ｗｅｉｎｔｒｏｄｕｃｅｈｏｗｔｏｕｔｉｌｉｚｅｄｅ

第

５

期庞天泽，等：分布式环境中数据库模式设计实践

ｎｏｒｍａｌｉｚａｔｉｏｎｔｏｄｅｓｉ

ｇ

ｎｔｈｅｓｃｈｅｍａｆｏｒＯｃｅａｎＢａｓｅａｎｄｔｏｉｍ

ｐ

ｒｏｖｅｔｈｅ

ｐ

ｅｒｆｏｒｍａｎｃｅｏｆＯＬＡＰ．Ｆｉ

ｎａｌｌ

ｙ

，

ｗｅｉｌｌｕｓｔｒａｔｅｔｈｅｅｆｆｉｃｉｅｎｃ

ｙ

ａｎｄｅｆｆｅｃｔｉｖｅｎｅｓｓｏｆｔｈｅｄｅｎｏｒｍａｌｉｚａｔｉｏｎｄｅｓｉ

ｇ

ｎｆｏｒＯｃｅａｎＢａｓｅｉｎ

ｔｈｅｅｍ

ｐ

ｉｒｉｃａｌｓｔｕｄ

ｙ

ｂ

ｙ

ｕｓｉｎ

ｇ

ｂｅｎｃｈｍａｒｋＴＰＣＨ．

犓犲

狔

狑狅狉犱狊

：

ｄｅｎｏｒｍａｌｉｚａｔｉｏｎ

；

ｄｉｓｔｒｉｂｕｔｅｄｄａｔａｂａｓｅ

；

ＯｃｅａｎＢａｓｅ

；

ＴＰＣＨ

０

引

言

数据库按照表结构来组织、存储和管理数据，被广泛应用于各行各业，以提供数据支

撑

［

１

］

．

数据库模型主要分为网状模型、层次模型、关系模型和面向对象模型等

［

２

］

．

其中，关系

模型使用二维表来描述数据间的关系，具有很好的数据独立性和简洁的数据组织结构

．

目前

主流数据库管理系统均采用关系模型，如

Ｏｒａｃｌｅ

［

３

］

、

ＤＢ２

［

４

］

、

Ｍ

ｙ

Ｓ

ｑ

ｌ

［

５

］

等，这类传统的关系型

数据库采用集中式的管理模式，即数据的存储和处理一般都集中于一个节点上

．

而数据库厂

商则通过不断地提高节点的存储和处理能力

，来应对业务和数据量的增长

．

但是，由于近几

年互联网的快速发展，全球数据量正呈爆炸式增长，传统的集中式数据库难以承载海量数据

的存储和访问

．

为解决这一问题，分布式数据库是一个不错的选择

．

在分布式数据库中，系统通常会根

据数据分片和数据分配的策略，将数据分布存储在多个节点上

．

节点之间通过网络相互连

接，当数据库收到数据请求时，能够将请求发往相应的节点进行处理，降低了单个节点的负

载

．

另外，在分布式数据库中，为了防止数据由于节点故障而造成丢失或无法访问，一般会为

数据创建多个副本，分别存储在不同的节点上

．

这样，即使有某个节点出现故障，也不会影响

数据库的正常使用，很大程度上提高了数据库的可靠性

．

分布式数据库很好地解决了集中数

据库的数据存储瓶颈，并提升了数据库的可靠性

．

但是在实际应用中，它仍存在一些问题

．

在

分布式数据库中，节点之间通过网络互连，数据会跨节点甚至跨地域分布

．

如果应用中存在

连接操作

，并且涉及的各张表数据分别存储在不同节点上，那么执行该应用时将会造成数据

的跨节点交互

．

特别是对于

ＯＬＡＰ

业务，数据量一般十分庞大，连接操作导致的大量数据交

互会产生巨大的网络传输开销，严重影响数据库的性能

．

此外，由于数据分布存储并具有多

个副本，副本间的数据一致性需要数据库来维护，这也会给数据库的性能带来负面影响

．

在实践中，数据设计通常都会遵循范式

．

然而，严格的范式设计无法保证数据库在任何

情况下都能有最优的性能

［

６

］

．

为减少数据冗余，范式设计的数据库通常会包含大量的表格，

因此，查询时可能需要连接多张表后才能获得需要的全部数据

．

而过多的连接操作是数据库

性能下降的主要因素

，特别是在大数据量情况下，影响更大

．

因此，通过减少表的数量，同时

增加数据冗余，尽量减少查询中的连接操作，从而提高数据库性能，这正是所谓的反范式数

据库模式设计

．

尤其是在数据仓库业务中，由于数据量相对庞大，查询请求也较为复杂，反范

式设计可以很好地改善数据库性能，以满足业务需求

．

由于在分布式数据库中增加了网络传输开销，传统的数据库范式设计方法带来的问题

被放大

．

因此，反范式模式设计可能是分布式数据库的一个选择，这是因为：（

１

）分布式数据

库通过多节点数据冗余提高系统可用性，数据的完整性不再是通过减少冗余来实现；（

２

）反

范式模式设计降低了网络数据传输开销

，可以提高分布式数据库的性能

．

但是反范式模式设

计也有缺点，比如在

ＯＬＴＰ

中，数据库的增、删、改的操作十分常见，较多的数据冗余会增加

１９２

of 11

免费下载

oceanbase

关注

评论