信俊昌 等:数据模型及其发展历程
143
Abstra ct : Database management technology is an important bran ch of computer s cience. After the development of nearly half a century,
database technology has formed a solid theoretical foundation, mature commercial products, and a wide range of applications. The data
model describes the storage and operation of data in the database. According to the organizational form of data, there are four types of
data models: structured models, semi-structured models, OLAP analysis models, and big data models. From the late 1960s to the earl y
1990s, the structured models were first proposed, which mainly includes hierarchical model, network model, relational model, and
object-oriented model. In the late 1990s, with the rapid development of complex applications such as Internet applications and scientific
computing, semi-structured models began to emerge, including XML models, JSON models, and graph models. In the new century, with
the continuous development of applications such as e- commerce and business intelligence, the data analysis model has b ecome a research
hotspot, mainly including relational ROLAP and multi-dimensional MOLAP. Since 2010, with the rapid development of big data industry
applications, the big data model represented by NoSQL and NewSQL database systems has become a new research hotspot. This article
summarizes the above data models, and analyzes the p erformance of t ypical database s ystem selected fro m each mod el.
Key words: data model; structured model; semi-structured model; OLAP analysis model; big data model
在信息化社会,数据库技术是管理信息系统、办公自动化系统、决策支持系统等各类信息系统的核心部分,
是进行科学研究和决策管理的重要技术手段.数据库技术从诞生到现在,在不到半个世纪的时间里,形成了坚实
的理论基础、成熟的商业产品和广泛的应用领域,吸引了越来越多的研究者加入.数据库的诞生和发展,给计算
机信息管理带来了一场巨大的革命
[1]
.几十年来,国内外已经开发建设了成千上万个数据库,它已成为企业、部
门乃至个人日常工作、生产和生活的基础设施.同时,随着应用的扩展与深入,数据库的数量和规模越来越大,数
据库的研究领域也已经大大地拓广和深化了.自 1966 年计算机图灵奖设立以来,数据库领域共获得了 4 次该奖
项(1973 年 C.W. Bachman1,1983 年 E.F. Codd,1998 年 J. Gray 和 2014 年 M. Stonebraker),更加充分地说明了数
据库是一个充满活力和创新精神的领域.
数据模型是数据库中数据的存储方式和操作方式,是数据库系统的基础.现实世界中客观存在的事物之间
存在着多种联系,数据模型是将不同的联系通过筛选、归纳、总结、命名等抽象过程产生出概念模型,用以表
示对现实世界的描述,然后转换成真实、容易被人们理解和便于计算机处理的数据表现形式.也可以说,数据模
型用于表达现实世界中的对象,也就是将现实世界中杂乱的信息,用一种规范而形象化的方式表达出来.
根据不同模型的应用层次,可以将数据模型分为概念数据模型、逻辑数据模型和物理数据模型:概念数据
模型中最常用的有E-R 模型和面向对象模型等,主要用来描述世界的概念化结构,它使数据库的设计人员在设
计的初始阶段,集中精力分析数据以及数据之间的联系;逻辑数据模型反映的是系统分析设计人员对数据存储
的观点,是对概念数据模型进一步的分解和细化,其中最常用的是层次模型、网状模型、关系模型和大数据模
型等;物理数据模型描述了数据在储存介质上的组织结构,是在逻辑数据模型的基础上,考虑各种具体的技术实
现因素,进行数据库体系结构设计,真正实现数据在数据库中的存放.根据不同模型的语义关系,可以将数据模
型分为
XML、RDF 模型和超模型等:XML 模型是一种分层自描述模型;RDF 是一种基于 XML(可扩展标记语
言)编写的元数据(描述数据的数据),用于描述 Web 资源的标记语言;超模型是一组超实体以及定义在它们上面
的关系和约束组成,为复杂的实体模型建模提供了快捷的方法.根据不同模型的应用场景,可以将数据模型分为
离线模型、在线模型和近线模型:离线模型的主要代表为 OLA P 模型;在线模型可以可靠地处理无限的数据流,
像 Ha do op 批量处理大数据一样,实时处理数据,主要代表为 Storm 等;近线模型定位于在线存储和离线存储之
间,是指将那些并不是经常用到或者说数据的访问量并不大的数据加以存储,但要求对这些数据寻址要迅速、
传输率要高.目前,近线模型很多是基于 Hadoop 分布式文件系统构建起来的.根据数据模型的发展历程,按时间
段将数据模型分为结构化模型、半结构化模型、OLAP 分析模型和大数据模型,其发展过程如图 1 所示.20 世
纪 60 年代中后期,出现了结构化模型,主要包括层次模型、网状模型、关系模型和面向对象模型等.20 世纪 80
年代以前主要研究关系模型,关系模型为数据库系统和产业的发展奠定了坚实的基础.20 世纪 70 年代后期产生
了 ER 模型,80 年代中期开始出现面向对象模型,到 20 世纪 90 年代初期,
面向对象模型达到一个顶峰.20 世纪
90 代末期,随着互联网应用和科学计算等复杂应用的快速发展,开始出现半结构化模型,包括 XML 模型、JSON
模型、RDF 模型、图模型和超模型等.XML 模型是一种分层自描述模型;JSON 使用文本表示一个 JS 对象的信
评论