暂无图片
暂无图片
3
暂无图片
暂无图片
暂无图片

数据库的发展及演进之路

甲骨文云技术 2025-03-31
461

斯腾贝格(Michael Stonebraker) 教授,2014 年图灵奖得主、麻省理工学院兼职教授,被誉为现代数据库技术的奠基人。他的经典文章《2005 What Goes Around Comes Around》和《2024 What Goes Around Comes Around... And Around...》深入剖析了数据库技术的发展历程,揭示了技术演变的规律与未来趋势。

本文1-3部分简单介绍了斯腾贝格教授论文中的要点,包括近20年数据模型和查询语言的发展,以及数据库在架构实现上的一些发展。4-5部分则阐述了Oracle数据库的发展与斯腾贝格教授论文的契合之处。

1. 数据模型的演进


从层次模型到主导世界的关系模型

20 世纪 60 年代,层次化数据库(如 IMS)占据主导地位,但其灵活性不足,难以适应复杂数据关系,之后又发展出了网络模型(如CODASYL)试图改进,但高复杂性限制了推广,再之后,20 世纪 70 年代,关系模型出现,在此之后,基于市场需求,陆续出现了其他一些数据模型,如实体-关系模型、扩展关系模型、语义模型、面向对象模型以及半结构化模型(如XML和JSON)。在这些众多的数据模型中,一部分已经完全消失在历史长河中,只有极少数仍在一些遗留系统中使用。而可扩展的关系模型则持续蓬勃发展,主导了数据模型的世界。我们常说“存在即合理”,这正说明关系模型已经成为全球的共识。

在2024年最新的文章中,斯腾贝格教授甚至断言,再过20年,当人们再次回看历史,仍然是这个趋势。

2. 近20年数据库数据模型和查询语言的发展


和2005年针对过去40年的分析结果一致,在过去的20年里,尽管一些新兴的数据模型一直试图取代关系模型和SQL,但关系模型和SQL一直是DBMS的主流选择,并且,SQL逐渐吸收了这些替代方案中的先进思想。

MapReduce系统

尽管MapReduce系统曾受到广泛关注,但因其低效性逐渐被市场淘汰。例如 Hadoop 和 HDFS 已失去主流地位。企业开始采用更优的分布式存储解决方案,而分布式关系数据库管理系统(RDBMS),特别是在云环境中的应用,发展势头强劲。

KV 存储的应用与挑战

KV 系统提供了简单的存储解决方案,适用于某些高吞吐需求的应用。然而,其在支持 SQL 和事务一致性方面面临诸多挑战:

  • 数据模型不兼容:KV 结构难以支持复杂 SQL 查询(如多表 JOIN、索引优化)。

  • 查询优化受限:缺乏统计信息,导致 SQL 优化器难以高效执行查询。

  • 事务一致性问题:大多数 KV 系统仅支持单键事务,跨键事务需额外协议,影响性能。

  • 计算与存储分离:增加数据传输成本,降低查询效率。

因此,许多新型数据库系统在 KV 存储之上构建 SQL 引擎,以弥补这些不足。

NoSQL 与 SQL 的融合

NoSQL 数据库(如文档数据库、列族存储)在 21 世纪初兴起,以满足互联网应用对灵活性和扩展性的需求。然而,随着 SQL 在数据管理中的不可替代性日益凸显,许多 NoSQL 系统开始支持 SQL ,如 MongoDB 提供 SQL 查询能力。并且,斯腾贝格教授认为当初NoSQL不支持SQL的原因之一是因为优化器的复杂性,让NoSQL产品专家不愿去承担这种工程负担。   

区块链数据库

区块链数据库因为加密货币的兴起而备受关注,但现实的情况是目前除了加密货币外,我们没有看到其它有规模的成功应用场景,事实上,区块链数据库已经在衰退中。

向量数据库的崛起

随着人工智能的发展,向量数据库成为高维数据存储和检索的重要工具。向量数据库的演进趋势类似于文档数据库:

  • 逐步增强 SQL 兼容性。

  • 与传统 RDBMS 融合,如 PostgreSQL 和 OracleDB 已集成向量索引。

  • 重点优化 ANN 搜索,提高查询效率。

现实世界的需求推动着数据库管理系统的不断创新,可以预见,新的解决方案和产品将层出不穷。然而,从斯腾贝格教授的观点来看,关系模型和SQL将继续吸收这些新技术和思路,持续发展。

3. 近20年数据库架构实现的发展


斯腾贝格教授认为数据库技术的演进并非线性发展,而是呈现出“螺旋式上升”的特点,即某些技术会在新的背景下重新出现并得到改进。以下是斯腾贝格教授基于过去20年数据库技术发展趋势的总结。

云原生数据库的崛起

随着云计算技术的普及,云原生数据库逐渐成为主流。斯腾贝格教授认为基础设施的变革(如从本地到云)是推动数据库技术演进的重要动力。随着云计算技术的普及,云原生数据库逐渐成为主流。云原生数据库不仅具备传统数据库的功能,还能够充分利用云计算的弹性扩展、按需付费等特性。   

  • 弹性扩展:云原生数据库能够根据工作负载的需求自动扩展计算和存储资源,确保在高负载情况下仍能保持高性能。

  • 按需付费:用户只需为实际使用的资源付费,降低了初始投资成本。

  • 自动化管理:通过 AI 和机器学习技术,云原生数据库能够自动执行备份、调优和故障修复等任务,减少了人工干预。

斯腾贝格教授认为,云原生数据库的出现是数据库技术演进的一个重要里程碑,它不仅改变了数据库的部署方式,还推动了数据库管理模式的革新。

多模型数据库的兴起

随着数据类型的多样化,单一的数据模型已经无法满足所有应用场景的需求。斯腾贝格教授认为数据库技术的历史是一个在“专用系统”与“通用系统”之间不断摇摆的过程。随着数据类型的多样化,单一的数据模型已经无法满足所有应用场景的需求。多模型数据库能够同时支持关系型、文档型、图数据库等多种数据模型,极大地提高了数据库的灵活性和适用性。例如,Oracle 等数据库已经在多模型支持方面取得了显著进展。

  • 关系型与文档型的融合:通过支持 JSON 和 XML 等半结构化数据,多模型数据库能够同时处理结构化和非结构化数据。

  • 图数据支持:多模型数据库能够处理复杂的图数据查询,适用于社交网络分析、推荐系统等场景。

  • 跨模型查询:多模型数据库允许用户在一个查询中同时访问多种数据模型,简化了复杂应用场景下的数据管理。

斯腾贝格教授认为,多模型数据库的出现是数据库技术“螺旋式上升”的体现,它既继承了关系模型的通用性,又吸收了 NoSQL 的灵活性。   

数据库与AI的深度融合

人工智能技术的快速发展为数据库带来了新的机遇和挑战。斯腾贝格教授强调AI 技术将成为数据库技术演进的关键驱动力。未来的数据库系统不仅需要存储和管理海量数据,还需要支持复杂的 AI 算法和模型训练。例如,Oracle 的自治数据库和 Google 的 BigQuery ML 已经在数据库内集成 AI 功能,支持自动优化、故障检测和预测分析等功能。

  • 自动优化:通过 AI 技术,数据库能够自动调整索引、优化查询计划,从而提高查询性能。

  • 故障检测与修复:AI 能够实时监控数据库的运行状态,自动检测并修复潜在问题,确保系统的高可用性。

  • 预测分析:数据库内置的 AI 功能能够支持复杂的预测分析任务,帮助企业从数据中挖掘更多价值。

斯腾贝格教授认为,AI 与数据库的深度融合将推动数据库系统向智能化方向发展,未来的数据库将不仅仅是数据存储的工具,还将成为数据分析和决策支持的核心平台。

边缘计算与分布式数据库

随着物联网和边缘计算的兴起,分布式数据库在边缘计算场景中的应用越来越广泛。斯腾贝格教授提到,分布式数据库是应对现代应用场景复杂性和规模化的关键解决方案。随着物联网和边缘计算的兴起,分布式数据库在边缘计算场景中的应用越来越广泛。分布式数据库能够在多个边缘节点之间实现数据同步和一致性,确保数据的实时性和可靠性。

  • 数据同步与一致性:分布式数据库通过多区域复制和一致性协议(如 Raft)确保数据的高可用性和一致性。

  • 边缘计算支持:分布式数据库能够在边缘节点上运行,支持低延迟的数据处理和实时分析。   

  • 弹性扩展:分布式数据库能够根据业务需求动态扩展,适应不断增长的数据规模。

斯腾贝格教授认为,分布式数据库的出现是数据库技术应对现代应用场景复杂性和规模化的必然选择,它将继续在未来的数据库技术演进中发挥重要作用。

4. Oracle融合数据库:集成多种能力的现代数据库


Oracle数据库的发展已经历经了几十年的时间,在这期间涌现了许多竞争者,但许多已经逐渐退出了历史舞台。作为传统关系型数据库的领导者,Oracle之所以能够保持长久的领先地位,关键在于其对技术趋势的敏锐洞察和持续创新。

多数据类型融合

斯腾贝格教授的观点指出过去数据库技术常因应用场景的变迁在“专用系统”与“通用系统”之间摇摆(如 NoSQL 的兴起与后来的 SQL 回归)。Oracle 通过多模型数据库策略回应了这一趋势。

  • 关系型数据库:支持事务处理和复杂查询。

  • 向量数据库:Oracle 23ai提供原生向量数据类型和索引,支持 AI 语义搜索。

  • 支持原生JSON:支持基于JSON数据的事务处理,并同时支持API和SQL的方式操作JSON文档,使应用开发及数据使用更加便捷。

  • 图数据库:支持 RDF 图和属性图,适用于社交网络分析、供应链优化等诸多场景。   

  • 空间数据支持:支持 GIS 数据,应用于智能城市、物流路线优化等领域。

  • 列式存储与大数据分析:通过 In-Memory 技术优化查询性能,加速数据分析。

  • 融合查询SQL: Oracle融合数据库不仅仅是支持多数据类型,更重要的是使用融合SQL,在一个查询语句中就可以包含针对多种数据类型的跨模型、跨数据集关联查询,极大降低了复杂应用场景下的编程难度,并为企业创新应用带来可能性。

AI 赋能数据库

斯腾贝格教授认为AI被视为关系模型持续演进的关键动力,同时也是非关系型数据库颠覆传统格局的潜在力量。未来的数据库系统需在兼容SQL生态的同时,深度集成AI能力以应对新兴场景。

  • 数据库内 AI 管理:采用 AI 进行自动索引(Auto Indexing)、AI优化查询和AI辅助进行故障检测;

  • Oracle自治数据库:提供 AI自优化、自恢复、自修复功能,减少人为操作错误并及时应对可能的故障,并保持数据库服务高性能及高可用;

  • 向量存储与 AI 结合:Oracle 23ai提供原生向量数据类型和向量索引,对非结构化数据(如图像、音频、视频等)的语义搜索提供极致性能;   

  • 库内RAG:Oracle 23ai引入库内RAG(检索增强生成),允许开发人员仅使用SQL就能在数据库内部实现复杂的AI功能,而无需搭建复杂的技术栈。这种方式大大降低了开发难度和成本,提高了开发效率;

  • 自然语言交互:通过Oracle 23ai的Select AI 允许用户使用自然语言进行连续对话以检索信息。Select AI集成了大语言模型(LLM),能理解用户的意图并基于企业私有业务数据提供响应;

  • 应用生成:Oracle内置的成熟的低代码开发平台APEX,提供APEX AI助手,借助大模型的能力,通过自然语言对话,能高效地构建应用蓝图,及生成SQL、HTML、CSS、JavaScript等。

云环境支持

斯腾贝格教授指出技术周期往往伴随基础设施变革(如从本地到云)。Oracle 全力推进 Oracle Cloud Infrastructure (OCI),将传统数据库能力与云原生特性(弹性扩展、按需付费)结合。

  • 通过 Exadata Cloud Service 和自治数据库(Autonomous Database),Oracle 在云上提供与本地部署一致的高性能HTAP体验,同时支持横向扩展。这种“云优先但不颠覆传统”的策略,既吸引企业平滑上云,又避免了完全重构架构的风险,贴合斯腾贝格教授对“渐进式演进优于颠覆式革命”的洞察。   

  • Oracle 融合数据库全面支持 OCI(Oracle Cloud Infrastructure),使用户在 OCI、私有云和本地环境中对数据库保持一致的高效管理和使用体验。


5. Oracle 23ai的新特性与斯腾贝格教授理论的契合



Oracle 23ai作为长期支持版本,其特性体现了斯腾贝格教授提出的“融合扩展”和“架构创新”路径。

关系模型的核心地位增强

  • AI Vector Search:通过内置向量索引支持非结构化数据(如图像、文档)的语义搜索,将AI能力嵌入关系模型,避免数据迁移和模型割裂。这与斯腾贝格教授强调的“SQL吸收新技术”一致。

  • JSON Relational Duality:实现JSON文档与关系表的双向映射,解决半结构化数据与关系模型的阻抗不匹配,延续了“扩展关系模型”策略。

架构创新应对云与分布式挑战

  • 云原生与计算存储分离:支持对象存储集成和Serverless架构,符合论文中“云数据库颠覆传统架构”的判断。

  • 全局分布式数据库:基于RAFT协议的多区域复制,提升可扩展性和容灾能力,响应NewSQL对ACID与分布式一致性的需求。   

开发者效率与历史经验应用

  • 低代码与微服务支持:通过APEX和Transactional Microservices简化开发,符合“加速应用开发”的市场需求。

  • Lock-Free Reservation:细粒度并发控制减少锁争用,体现对历史技术(如CODASYL锁机制)的优化而非抛弃。

安全与合规延续传统优势

  • In-Database SQL Firewall:内置防火墙防止SQL注入,延续Oracle在关键任务场景中的可靠性设计,符合斯腾贝格教授对“市场驱动技术优先级”的分析。


6. Oracle融合数据库的极致应用



Oracle 融合数据库通过融合查询,打破传统数据库的边界,实现复杂业务场景的高效处理。例如,在寻找走失人员的应用中,只需一条 SQL 语句,即可整合多种数据类型,精准匹配并快速检索相关信息。

相比传统方式,该查询通常需要多个独立数据库协作,如关系型数据库、GIS 地理信息库和向量数据库。不同数据库间的数据交互、转换和过滤往往会带来额外的系统复杂度和性能挑战。而借助 Oracle 融合数据库,这些数据可在同一平台上无缝融合,大幅降低开发与运维成本,同时提升查询效率与精准度。   

7. 结语

斯腾贝格教授的研究深入剖析了数据库技术的演变,同时也激发我们对未来数据库领域发展的深刻思考。SQL作为强大的声明式语言,仍然在数据管理系统中占据核心地位。关系模型自提出以来,始终是普适和高效的数据模型,经过数十年的发展,它不断扩展,使其能够满足绝大部分的应用需求。

随着云计算、人工智能和边缘计算等新兴技术的快速发展,数据库技术也在不断演进。云原生数据库、多模型数据库、AI赋能数据库以及分布式数据库等新兴技术正在推动数据库领域的创新与发展。未来,数据库系统将更加智能化、灵活化和分布式化,为各行各业提供更加高效和可靠的数据管理解决方案。

与此同时,Oracle 23ai融合数据库通过融合多种数据类型、叠加丰富的库内机器学习算法及AI创新技术,以及云原生能力,能成功应对当今企业多样化的需求,并为未来的发展开辟广阔的空间。这种持续创新和深度整合的精神,将继续推动数据库技术的进步,迎接更加智能化和灵活的未来。

编辑:小炒肉


文章转载自甲骨文云技术,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论