暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

长文:存算智理惠,我眼中的数据库趋势

韩锋频道 2025-10-21
64
近期,受好友德哥的一篇文章启发,也谈谈我眼中的数据库发展趋势。


1. 概述:数据库迎来“五维”进化新纪元

我们正置身于一个数据核聚变的时代。全球数据总量正以指数级攀升,据IDC等权威机构预测,到2025年,全球新创建的数据量将超过175ZB。这股奔涌的数据洪流,既是数字经济的新石油,也对承载和管理它们的核心基础设施——数据库,提出了前所未有的挑战与机遇。回首数据库发展历程,从最初的文件系统到关系型数据库一统天下,再到互联网时代NoSQL/NewSQL的百花齐放,其演进速度从未像近十年这般迅猛。细观当前数据库领域的技术脉络,我们可以清晰地梳理出五大核心发展趋势,我们将其概括为“存、算、智、理、惠”五个维度。这五个字不仅代表了数据库技术进化的五个关键方向,更勾勒出未来数据基础设施的整体蓝图。

  • 存(存储):是数据库的根基,关乎数据如何被最有效、最可靠、最多元地承载。其演进方向是向着更合理的模型、更巨大的规模、更丰富的类型持续突破。

  • 算(计算):是数据库的灵魂,关乎数据如何被高效、精准、灵活地处理。其趋势正从分化走向融合,从单一走向多元,甚至重新定义“计算”的边界。

  • 智(智能):是数据库的升华,意味着数据库从被动的“数据保管员”向主动的“价值挖掘者”转变。AI与数据库的深度耦合,正催生新一代的数据智能平台。

  • 理(治理):是数据库的骨架,确保数据资产的可控、可信、可用。治理能力正从“外挂式”工具向数据库内核“内嵌式”能力演进,实现由内而外的合规与高效。

  • 惠(普惠):是数据库的愿景,旨在通过云原生、Serverless、开源等模式,将强大的数据能力转化为随需所用、按需付费的公共服务,极大降低技术创新门槛。





本文将深入这五个维度,剖析数据库技术的未来走向,为企业和开发者在这场数据变革中把握先机提供一份前瞻性的路线图。


2. 存储:从结绳记事开始的基座革命

如果说人类文明的传承始于记录,那么数据库的雏形便可追溯至古老的“结绳记事”。其本质,便是寻找一个可靠、可解读的载体来存储信息。数据库诞生至今,其最根本的使命从未改变:如何更好地存储数据。数十年来,数据库在存储层面的创新主要围绕三个方面:更合理的存储模型、更大规模的数据存储以及存储数据类型的多元性。

1).存储模型演进:关系型的永恒与超越
早期,为应对特定的业务结构,数据库存储模型出现了层次模型(如IMS)和网状模型(如IDMS),它们性能高效但结构僵化,复杂性高。直到1970年,埃德加·科德(Edgar F. Codd)提出关系模型,用简单的二维表(关系)来组织数据,并通过非过程化的SQL语言进行操作,这堪称数据库史上的“第一次革命”。这种模型具有坚实的数学基础,数据独立性高,结构清晰,极大地降低了数据管理的复杂度。它迅速催生了Oracle、DB2、Informix、Sybase等商业巨头,以及MySQL、PostgreSQL等影响深远的开源项目,奠定了现代信息系统的基石。即便在21世纪初,为应对Web 2.0海量非结构化数据挑战而兴起的NoSQL浪潮中,关系模型也展现出常青树般的顽强生命力。其成功的关键在于其高度的抽象能力和强大的一致性保证,能够清晰、可靠地映射现实世界中绝大多数业务实体及其关联。
2).存储规模突破:分布式架构开启“海量”之门
互联网应用的爆炸式增长,使得传统单机或传统主从架构的存储瓶颈暴露无遗。单个服务器的硬件极限(如磁盘容量、网络带宽、CPU处理能力)无法满足TB乃至PB级数据的存储与高并发访问需求。分布式技术成为解决这一问题的金钥匙。其核心思想是“分而治之”:通过将数据按照特定策略(如范围、哈希)进行分片,然后分布到一个由大量廉价、通用的商用服务器组成的集群中。这使得数据库的存储能力和处理能力可以实现线性扩展。从早期的NoSQL数据库(如HBase、Cassandra)专注于可用性和分区容错性(AP),到现在的NewSQL和云原生分布式数据库(如Amazon Aurora、阿里云PolarDB)在保持强一致性(CP)的前提下实现分布式,“分布式”已成为应对海量数据场景的标配架构。
3).存储类型多元:“一专多能”多模数据库兴起

随着应用场景的复杂化,我们发现现实世界的数据类型是丰富多彩的,远非“结构化”一词可以概括。社交网络中的好友关系是复杂的图结构,物联网设备产生的则是带时间戳的时序数据,推荐系统依赖的是高维向量,内容缓存需要极低延迟的Key-Value存储,而产品目录可能是半结构化的JSON文档。尽管关系模型强大,但用它来存储和查询图关系或时序数据,就如同用螺丝刀去切菜,虽能勉强为之,却远非最优解,会带来极差的性能和复杂的查询。于是,多模数据库(Multi-Model Database) 应运而生,成为存储技术发展的前沿。它们在一个统一的数据库内核中,原生支持多种数据模型(如文档、图、KV、时序、向量等)。用户可以根据业务需求,为不同的数据选择最合适的存储和查询方式,同时享受统一运维、数据强一致性和跨模型事务的好处。

存储的进化,是数据库技术稳固的基石。未来,我们将看到关系模型与多模能力在统一架构下进一步深度融合,分布式架构更加智能化和自动化(如自动分片再平衡),共同构建起支撑数字世界的坚实、灵活、无限扩展的数据基座。



3. 计算:处理范式“一统”与“融合”

如果说“存”定义了数据的静态格局,那么“算”则赋予了数据动态的生命力,是数据库的灵魂所在。数据库的计算能力,直接决定了数据价值被挖掘的效率和深度。近年来,数据库在计算层面呈现出显著的“归流”与“聚变”特征:在计算接口上,SQL语言经历了否定之否定,展现出王者归来的大一统趋势;在计算架构上,则从OLTP与OLAP的专业化分化,走向HTAP的深度融合。

1).SQL“王者归来”:计算接口大一统与增强
历史的发展总是螺旋式上升。在Web 2.0时代,为应对海量并发和灵活的数据模式(Schema-less),一场轰轰烈烈的NoSQL运动提出“摆脱SQL的束缚”,倡导使用更简单的API(如RESTful、特定语言的SDK)进行数据操作,认为SQL过于沉重和僵化。一时间,Key-Value、文档型等数据库大行其道。然而,经过多年的实践检验,开发者们很快发现,放弃SQL意味着放弃了其背后巨大的优势:强大的声明式表达力(只需告诉数据库“要什么”,而不是“怎么做”)、非过程化编程的便捷性以及庞大的生态工具(如各类BI报表工具、数据集成工具都原生支持SQL)。许多复杂的查询逻辑,用低级API实现起来异常繁琐、易错且性能低下。于是,我们看到了一个有趣且深刻的趋势回归:“NoSQL”逐渐演变为“Not Only SQL”。而几乎所有新出现的数据库产品,无论是关系型还是非关系型,都选择兼容或提供SQL或类SQL接口作为首选交互方式。甚至连早期的NoSQL代表如MongoDB提供了聚合管道和查询接口,Cassandra推出了CQL。这宣告了SQL作为数据计算领域“世界语”的地位不可动摇。未来的趋势将是SQL标准的进一步扩展和增强,例如通过SQL/PGQ标准将图查询能力(如路径查找)集成到SQL中,实现“一种语言,操作万物”的终极理想,极大降低开发者的学习成本和系统间的集成复杂度。
2).TP、AP与HTAP:计算架构的“分久必合”
过去几十年,根据业务负载的特征,数据库的计算架构分化为两大泾渭分明的阵营:OLTP(联机事务处理) 和 OLAP(联机分析处理)。OLTP面向高并发、短事务的日常业务操作,强调高吞吐、低延迟和严格的ACID事务属性。OLAP则面向复杂的、只读的分析查询,涉及大规模数据的扫描、关联和聚合,强调高吞吐量和计算效率。这种专业化分工在特定历史阶段带来了性能提升,但也导致了严重的“数据孤岛”和“数据延迟”问题。企业需要构建复杂的ETL(抽取、转换、加载)流程,定期(通常是每天或每小时)将OLTP数据库的数据同步到专门的OLAP数据仓库中。这个过程成本高昂、耗时耗力,且分析结果永远不是最新的,无法支持实时决策。在此背景下,HTAP(混合事务/分析处理)的兴起成为必然。HTAP数据库通过创新的架构设计(如行列混合存储引擎、智能数据路由、资源隔离等技术),使得业务可以在一个数据库平台上同时运行事务型和分析型负载,无需进行繁琐的数据搬迁。这带来了三大核心价值:一是实时性,分析可以基于最新的、正在发生交易的数据,实现真正的实时业务洞察;二是经济性,避免了维护两套独立系统以及复杂ETL过程带来的巨额软硬件采购、人力运维和数据存储成本;三是易用性,极大简化了数据架构,降低了开发、运维和管理的复杂度,让数据团队能更专注于业务价值本身。HTAP代表了计算架构从“分化”到“融合”的聚变,是未来企业级数据库,特别是核心业务系统数据库的核心竞争力。
3).计算范式扩展:AI即计算,重新定义边界
此外,我们对“计算”本身的理解也在不断深化和扩展。传统的数据库计算主要指代SQL查询中的关联、聚合、排序等关系代数操作。而在AI时代,机器学习模型推理、向量相似度计算、图算法(如社区发现、最短路径)等,正成为一种新的、至关重要的计算范式。例如,为一个用户推荐商品,本质上是计算用户特征向量和商品特征向量在高维空间中的余弦相似度或内积。这种计算模式与传统的表关联截然不同,对数据库内核提出了新的要求。因此,我们看到越来越多的数据库开始原生支持向量索引和向量计算运算符,使得“找出与某向量最相似的Top K个项”可以像一条SQL语句那样简单高效地执行。这种对新兴计算范式的原生支持,模糊了传统数据处理与智能数据分析的界限,推动了数据库向更强大的计算平台演进。
计算的发展,正朝着接口统一化、架构融合化、范式多元化的方向高歌猛进。一个既能处理高并发事务,又能进行实时分析,还能原生运行AI算法的统一数据计算平台,将是未来企业数字化基座的标准形态。


4. 智能:AI与DB双向奔赴,从库到平台

当数据的价值被日益重视,我们已不满足于仅仅“存储”和“查询”数据,而是希望数据能主动“思考”、“预测”和“决策”。人工智能,特别是机器学习和深度学习技术的成熟,为这一愿景提供了可能。数据库与AI的关系,正从简单的“数据供给方”与“计算引擎”的松散组合,升级为深度的“能力融合”,这场“双向奔赴”正在从两个层面重塑数据库的形态和职能。

1).层面:AI能力内化,数据库即AI算力引擎
传统的数据智能应用流程是一个典型的“数据平台 + AI平台”的管道模式:首先将数据从数据库中通过ETL导出,送入专门的AI平台进行特征工程、模型训练和推理,最后再将结果写回数据库供应用调用。这个过程存在诸多痛点:数据移动成本高(网络带宽和时间的消耗)、链路复杂(需要数据工程师、算法工程师等多角色协作)、实时性差(通常是T+1的批处理)、存在数据安全与隐私风险(敏感数据离开安全边界)。最新的趋势是将AI能力“算子化”并深度内置于数据库内核。用户可以直接使用熟悉的SQL或简单的扩展函数,在数据库内部调用机器学习算法。例如,一条SQL语句就可以完成从数据筛选、特征提取到模型预测的全过程。PostgreSQL的MADlib扩展、Google BigQuery ML、Oracle的Machine Learning in Database等都是这一方向的典型代表。这样做带来了诸多好处:一是极致性能,遵循“计算贴近数据”的原则,避免了不必要的数据移动,极大提升了计算效率,尤其适合实时推理场景;二是极低门槛,数据分析师和业务人员无需掌握Python、Scala等编程语言,利用其熟悉的SQL技能即可进行AI探索和部署,推动了AI的民主化;三是安全增强,敏感数据无需离开数据库的安全边界,满足了日益严格的数据合规(如GDPR、数据安全法)要求;四是一致性保证,AI计算可以作为数据库事务的一部分,确保了数据分析结果与业务数据状态的强一致性。未来,数据库内置的AI算子将越来越丰富,从经典的机器学习模型(回归、分类、聚类)到图神经网络、深度学习模型,数据库将演变成一个强大的、易于使用的泛化AI算力引擎。
2).层面:职能范围外延,从数据库到数据智能平台
数据库的“智能化”不仅仅是内置几个AI函数那么简单,更是其职能范围的战略性外延与升级。它正从一个被动的、以“增删改查”为核心的数据管理系统,升级为一个主动的、覆盖数据智能全链路的数据智能平台。这意味着,平台会原生集成更多AI全生命周期所需的周边能力,形成一个闭环,包括但不限于特征工程与存储、模型全生命周期管理、自动机器学习、开箱即用的数据智能服务等等。通过这种平台化的整合,企业能够以更低的成本、更高的效率构建端到端的智能应用,缩短从数据到价值的路径。数据库不再是漫长数据流水线上的一个孤立环节,而是成为了智能数据产品的“总装厂”和“发射台”。
智能趋势是数据库价值的一次巨大跃迁。通过内化AI算力和外延平台职能,数据库将不再仅仅是“数据的记忆体”,更是“业务的智能体”,直接驱动企业的实时智能化决策与创新应用,成为企业核心竞争力的真正源泉。


5. 治理:内嵌化,构建可信数据基石

当数据被确立为企业的核心战略资产,数据治理的重要性就已超越了技术范畴,成为关乎企业合规、风险控制和运营效率的管理必修课。然而,在传统的数据架构中,数据治理往往被视为一项独立于数据库的、“外挂式”的管理活动。企业需要采购一整套独立的数据治理工具套件,覆盖数据建模、元数据管理、数据质量、数据血缘、数据安全等多个方面。这种方式虽然功能看似专业,但常常面临与数据库内核“两张皮”的困境:集成复杂、标准不一、治理动作滞后且往往在事后进行,最终导致治理效果大打折扣,甚至因流程繁琐而阻碍业务敏捷性。

从本质上看,数据库作为数据的最终载体和唯一的“真相源”,是执行数据治理规则最自然、最彻底、最实时的地方。因此,未来的核心趋势是:数据治理能力“内嵌化”,从数据库内部由内而外地构建高效、自动化的治理体系,让治理成为数据的原生属性。目前这一领域已有部分实现或能想到的应用方式有很多,例如:
  • 数据建模与架构治理内嵌:数据库可以在最源头的DDL层面就强化治理规则。例如,支持强制性的注释规范,自动生成业务元数据;在创建表或修改表结构时,可强制要求添加数据分类分级标签,为后续基于策略的安全控制打下坚实基础。
  • 元数据、主数据与数据血缘自动化:数据库内核最了解数据的来龙去脉。它可以自动采集最基础、最准确的技术元数据(表结构、字段类型、约束、权限等)。通过解析SQL日志、执行计划和事务日志,可以自动生成精确到列级别的数据血缘图谱,清晰展示数据从何源表而来、经过哪些加工步骤(存储过程、视图、ETL任务)、流向何处。这种由数据库自身产生的血缘关系,远比外部工具通过扫描SQL脚本或日志进行推断要准确和高效得多,为影响分析、合规审计提供了可靠依据。
  • 数据质量管控实时化:有效的治理不等于事后检查和补救。数据库可以在数据写入(INSERT/UPDATE)时,就通过内置的约束、触发器或可扩展的校验框架,对数据进行实时质量检查。例如,强制要求邮箱字段符合特定正则表达式,或通过调用外部服务验证身份证号、银行账号的合法性,实现“坏数据不进库”,从源头保障数据质量。
  • 数据安全与合规内置化:安全是治理的底线,相关能力正以前所未有的深度融入数据库内核。除了传统的基于角色的权限控制(RBAC),还包括如:动态数据脱敏,在查询时根据用户角色和权限实时对敏感数据进行脱敏,无需在应用层进行复杂处理,保障数据可用不可见;细粒度访问控制,支持到行级和列级的安全策略,实现“千人千面”;数据加密:提供透明的静态数据加密以及在网络传输中的加密,并探索同态加密等先进技术,实现“数据可用不可见”的计算;完整审计,记录所有用户(包括管理员)对数据的访问、修改、删除行为,形成不可篡改的审计日志,满足GDPR、等保、数据安全法等合规要求。
通过这些内嵌的、原生的治理能力,数据治理不再是周期性、项目式的“运动”,而是一种常态化、自动化的“基态”。它极大地降低了治理的复杂性和成本,让数据从产生之初就处于受控、可信、高质量的状态,为数据价值的合规、安全释放提供了根本性保障。


6. 普惠:多元推动数据能力民主化

数据价值的最终实现,必须落在广泛的“应用”上。如何让各行各业、不同规模的企业和个人开发者,都能以可承担的成本、便捷的方式享受到数据服务,从而激发全社会的数字创新能力?这就是“普惠”趋势要解决的核心问题。它贯穿于数据生命周期的所有环节(存、算、智、理),其本质是通过技术和商业模式的协同创新,不断降低数据技术的使用门槛和总拥有成本(TCO),实现数据能力的“民主化”。

1).云原生:资源供给模式的颠覆性革命
云数据库及其所代表的云原生架构,是实现普惠最强大、最主流的引擎。其本质是一种颠覆性的资源供给模式:从需要自己买地、建房、装修、维护的自建砖瓦房(自建数据中心),转变为购买精装公寓、享受物业服务的数据库即服务(DBaaS)。它带来了几个根本性的改变:一是按需付费与零初始成本,用户无需投入巨额资金预先采购硬件和软件许可证,只为实际使用的计算和存储资源付费,像用水用电一样;二是极致的弹性伸缩,可根据业务高峰低谷实现秒级甚至毫秒级的扩容缩容,轻松应对瞬时流量冲击,既保证了用户体验,又极致地优化了成本;三是免运维,云服务商承担了底层硬件、网络、数据库软件的打补丁、备份、容灾等繁重运维工作,用户只需专注于业务逻辑开发,从“运维数据库”中解放出来。而Serverless架构将普惠推向了新高度。在Serverless数据库中,用户甚至无需关心和预置任何数据库容量(如CPU、内存规格),数据库后端会自动根据实际负载进行无缝伸缩,从零扩展到巨大规模,费用精确到每秒每次请求。这真正实现了“零管理”,让开发者获得了极致的敏捷性和经济性,是普惠趋势的终极体现之一。
2).存、算、智、理层面的普惠性创新
在四大技术趋势内部,也充满了以“普惠”为目标的设计思想:
  • 存的普惠:多模数据库通过“一库多用”,降低了采购、学习和维护多种专用数据库的成本。
  • 算的普惠:HTAP架构避免了维护OLTP和OLAP两套系统以及高昂的ETL成本,本身就是一种架构上的普惠。SQL语言的重新一统,极大降低了开发者的学习成本和不同系统间的集成成本。
  • 智的普惠:数据库内置AI能力,让中小企业无需组建庞大的AI算法团队和搭建复杂的AI平台,就能快速入门和部署数据智能应用,大大降低了AI的使用门槛。
  • 理的普惠:治理能力内嵌,让广大中小企业能用得起、用得好原来只有财力雄厚的大企业才玩得转的复杂数据治理工具,以较低成本建立起可信的数据资产体系。
普惠趋势是数据库技术发展的必然结果和其社会价值的最终体现。通过云原生、开源、一体化架构、Serverless等技术和管理创新,曾经高深莫测、只有巨头才能玩转的“大国重器”,正演变成人人可及、按需取用的“民用科技”和公共服务,这必将极大地推动整个社会数字创新活力的迸发。


7. 其他:服务化与自治化成为用户焦点

除了“存算智理惠”这五大主干趋势外,未来数据库的图景还有一些不可或缺的“枝叶”,它们虽不直接对应核心技术能力,却深刻影响着技术的采纳效率和用户体验,其中以“服务化”和“自治化”最为突出。前者一方面提供更多开箱即用的高级功能,而非一个需要大量编码的“半成品”,如原生支持强大的全文搜索引擎、灵活的JSON/XML文档处理、地理空间信息处理、甚至轻量级的流处理能力;另一方面提供数据服务接口,将复杂的数据库管理能力封装为简单的API或服务接口,让开发者能像调用本地函数一样使用数据能力,无需深入底层细节。后者则通过AI和机器学习技术实现数据库自我驱动、自我修复、自我优化、自我安全,最大限度地减少甚至消除人工干预,迈向“零运维”的数据库“自动驾驶”时代,这类似于汽车从手动挡到自动挡,再到自动驾驶的演进。自治数据库将DBA从繁重、重复、高风险的日常运维劳动中解放出来,使其能转型专注于更高价值的数据库架构设计、容量规划、业务赋能和数据资产管理等工作。




写在最后

“存、算、智、理、惠”五大趋势,并非孤立存在,而是相互交织、协同演进,共同勾勒出下一代数据库的完整面貌:它是一个能够存储海量、多模数据,融合计算、智能使能,内置强大治理能力,并能以普惠方式交付的一体化数据智能平台。

这场深刻的变革意味着,数据库的角色正从一个被动的、后台的“数据记录系统”,演变为一个主动的、战略性的“业务创新平台”。对于企业和开发者而言,深刻理解这些趋势,意味着能更好地规划自身的技术架构选型、团队技能培养和数据战略方向,在这场波澜壮阔的数据浪潮中抢占先机,构筑长期的数字化竞争力。


文章转载自韩锋频道,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论