暂无图片
暂无图片
2
暂无图片
暂无图片
暂无图片

国产数据库 AI 时代已到来

大家好,我是 JiekeXu,江湖人称“强哥”,青学会MOP技术社区主席,荣获Oracle ACE Pro称号,OpenTenBase ACE,金仓社区最具价值倡导者KVA,崖山最具价值专家YVP,IvorySQL开源社区专家顾问委员会成员,KWDB社区MVP,墨天轮MVP,墨天轮连续多年度“墨力之星”,拥有Oracle OCP/OCM认证,MySQL 5.7/8.0 OCP认证以及金仓KCA、KCP、KCM、KCSM证书,TiDB PCTA/PCTP证书、PCA、OBCA、OGCA等众多国产数据库认证证书,专注于数据库技术、系统架构及大数据运维,致力于分享最纯粹、最接地气的 DBA 实战与前沿技术洞察。如果你也对数据技术充满热忱,欢迎关注我的微信公众号“JiekeXu DBA之路”点赞、转发与评论,谢谢!

前  言

2026 年6月29日,国产数据库OceanBase Hours发布会,将近一个半小时的时间直播间有近60万人看过,这让我非常吃惊,前两天另一国产数据库的产品发布会线上直播显示 10w+ 看过,我就已经觉得非常不可思议了,OceanBase House 线上直播的这个在线看过人数则说明了关心国产数据库 OceanBase 的人,真的比我想象的多得多啊。这样的热度比过往任何一场线下活动要火的多,当然 OceanBase 的发布会、开发者大会一直以来都很火爆。

身边的朋友们和同事都在问:什么样的数据库,才配叫AI数据库?

看了 6 月 29 日直播后,OceanBase给出的答案是:湖库一体

OceanBase 产品体系

OceanBase Hours 线上发布会还同时发布了三款产品,OceanBase 面向湖库一体的 AI 数据库正式发布,OceanBase Lakebase、DataStudio、DataPilot 等全新 AI 产品家族同步亮相。

OceanBase湖库一体AI数据库并非单一存储引擎,三层产品构成从底层存储、数据治理到业务智能入口的完整闭环,覆盖AI数据全生命周期,适合企业一站式落地Agent平台。

  1. 底层底座:OceanBase Lakebase
    承载所有多模态数据存储、事务、混合检索、Agent隔离沙箱,是整套体系的算力与存储核心,解决“数据怎么存、怎么查、怎么保障一致”底层问题。
  2. 中间治理层:DataStudio数据工作台
    面向DBA、数据开发、算法工程师,覆盖数据接入、ETL编排、语义建模、元数据血缘、权限管控、RAG应用搭建。核心价值是给多模态数据标注业务语义,消除“语义孤岛”,让Agent读懂企业专属业务逻辑,打通原始数据到可调用智能资产的加工链路。
  3. 上层智能入口:DataPilot业务Agent
    面向业务人员的自然语言交互入口,无需掌握SQL即可生成报表、业务分析、合规问答,同时标准化MCP API对外提供服务,可作为其他业务Agent的数据工具,打通数据底座与上层应用的交互通道。

三层产品分层解耦又深度协同,企业无需额外采购数据治理平台、BI分析工具,一套体系完成数据存储、加工、智能使用全流程,降低多产品集成成本。

数据库进入 AI 时代

数据库发展至今,经历了商业、开源、云三个时代, 成就了三种商业形态。不过在 24 年的时候我就认为数据库发展将进入到第四个时代,即数据库AI时代,以Oracle 公司24年5月发布Oracle 23 ai 算起,已经迈入数据库AI时代。

  • 商业数据库时代: 成就了商业软件行业;
  • 开源数据库时代: 成就了互联网;
  • 云数据库时代: 也是商业和开源的混合时代,成就了云企业和数字化企业;
  • AI 数据库时代:AI 爆发式增长,结果让我们拭目以待。

今天,毫不夸张的说,数据库已经迈入数据库AI时代,2026 年 5 月 29 日,腾讯云产品发布会宣称腾讯云数据库 AI 原生 3.0 全面升级;2026 年 6 月 15 日,Databricks 发布 LTAP 湖仓事务一体化架构 + Lakebase 数据库,国内以 OceanBase 为首的国产AI 数据库将会接连不断的涌现。

如今,咱们国内厂商终于有机会参与制定下一代数据库的行业规则而不是一路跟跑,在 AI 时代国内外水平几乎一样,就连一直以来“遥遥领先”的 Oracle 数据库目前也没有发布真正意义上的 AI 数据库。

AI数据库不是引入几个向量插件就号称“AI 数据库”,它是新时代基础设施的全面重建。重建并不是将过去的一切推到重来,而是更高要求,AI 数据库解决的,不仅是“数据如何存储存”,而且还让“Agent 如何安全、准确并持续地使用数据”

现当下,绝大多数企业搭建 RAG、智能体平台采用传统拼凑式架构:业务库存交易数据、ES存文档全文、独立向量库(Chroma/Qdrant/Weaviate)存向量、对象存储存图片音频、Hive/Spark 做离线训练,整套架构至少 4~6 套独立系统。这种“插件堆砌方案”看似落地快,长期会形成四大无法规避的底层瓶颈:

  1. 多系统数据一致性断层,Agent上下文失真
  2. 海量轻Agent场景,资源隔离与调度无解
  3. 多模态数据割裂,非结构化资产无法形成业务上下文
  4. 两套交互体系割裂,SQL与语义检索无法统一

那么,OceanBase 给出的答案是:湖库一体。然后我们看看什么是“湖库一体”?

OceanBase 湖库一体

当日直播的时候还在搬砖,第一次听到“湖库一体”还以为是自己听错了,不是应该叫“湖仓一体”吗?对于数仓而言,数据湖、数据仓、湖仓一体都这些概念都听过,数据仓库是"规整但贵的表",实打实的事务型数据库,数据湖是"便宜但乱的垃圾堆",HDFS/OSS+Hive 廉价便宜啥都能存,湖仓一体是在湖上补 ACID 和 SQL,让一份廉价存储既能乱存又能快算,不再两头搬数据。一度以为OceanBase说的是“湖仓一体”,下班后又仔细看了看回放视频,算是学到了新知识。

既然AI 时代需要的 AI 数据库是“湖库一体”,那么AI数据库长什么样?OceanBase 给出了“一体化”和“多模态”两个需求以及“Agent友好”和“开放”两个原则。

OceanBase 一直主打单机分布式一体化,多模多态,这个毫无疑问是正确的战略方针,当前很多国内厂商也在做的事情,对于多模这块,OceanBase Lakebase 数据库首次引入了“多模表”的概念,这是很时髦的概念,可以使文本、大LOB、JSON、向量等多种数据能与传统结构化列共存于同一张表之下,用户使用标准SQL统一查询。

多模态的另一个创新点就是“AI列”:将Embedding向量化、摘要提取、标签分类、实体识别等模型能力内置进数据库列存储引擎。写入文档、图片时,引擎自动调用内置模型生成向量存入AI列,无需应用层单独调用Embedding服务再回写向量库,减少一次跨服务IO,同时向量与原始数据绑定在同一事务,天然解决同步延迟问题。

对于两个原则:“Agent 友好”:根据 Gartner 的预测,到 2028 年,三分之一的企业软件交互将由 Agent 完成 这种数量级的Agent 的出现对数据库有了更高要求,不仅需要长久记忆的上下文,还需要有千万级大规模 Agent 下的安全和权限隔离;OceanBase专门应对千万级轻Agent共存的新型负载,提出了两项创新机制解决隔离、试错、扩容三大难题:

  1. 逻辑表机制:海量Agent共享底层物理存储分片,上层每个Agent感知独立数据表,底层自动做数据隔离、Schema动态适配。蚂蚁3000万闪应用全部基于该机制承载,避免“一应用一物理表”造成元数据膨胀,闲置应用几乎不占用计算资源,访问时秒级唤醒。
  2. Fork Database分支沙箱:类似Git分支理念,毫秒级复制基线数据创建隔离数据环境,Agent做推理、策略试错、模型评测全部在分支内完成,分支写入不污染主干生产数据;验证通过可合并变更,效果不佳直接销毁释放资源。

但是,对于这两点我有点表示怀疑,管理这么大数据量级别的元数据会不会有性能问题?数据权限是否 100% 隔离?分支沙箱会不会出现存储IO波动等等,这些只能在生产实践中找到答案,目前就让我们拭目以待吧。


对于“开发生态”:需要衔接现代数据与 AI 技术栈,日照宣传对象存储”正在成为 AI 数据库的统一底座”,强调 OceanBase 支持S3对象存储、Iceberg开放表格式,可对接Spark、Ray等计算引擎。这一点毫无疑问也是非常正确的,一个企业的数据不仅仅只会出现在关系型数据库中,海量数据更多则是存储于 OSS/S3 对象存储中。这样的数据底座才能应对 AI 时代的数据,才能掌握主动权。

AI 数据库时代行业趋势预判

站在行业观察者的视角来看,OceanBase 推出 Lakebase,绝不是简单地为了蹭 AI 的热度发布一个新特性,而是代表了基础软件在 AI 时代演进的重要风向标。

对此,我个人有三个核心的行业技术趋势判断:

  1. 湖库一体将成为企业级AI数据底座主流标准
    湖仓一体擅长离线,向量库仅擅长检索,均无法兼顾企业核心在线交易与大规模Agent负载。未来2~3年,中大型企业会逐步淘汰碎片化多系统架构,选择以强一致分布式数据库为内核的湖库一体方案,实现全域数据统一管理。
  2. 向量、多模态能力从插件下沉至数据库内核
    “传统数据库外挂向量插件”只是过渡方案,插件模式存在事务、同步、性能先天缺陷,厂商会持续在内核层重构多模存储与检索引擎,向量、图文数据成为数据库原生一等公民。
  3. 数据库从“存储载体”升级为Agent底层运行沙箱
    未来数据库不再只被动接收SQL查询,而是原生提供数据分支、资源隔离、上下文存储、MCP标准化工具接口,成为Agent运行、试错、记忆持久化的底层基础设施,数据库与大模型、智能体边界持续融合。

国产数据库的位置

过去十几年,国产数据库在 OLTP 跟 Oracle、OLAP 跟 Teradata、KV 跟 Redis、文档跟 MongoDB、湖仓跟 Databricks——标准都是别人定的,我们是跟跑

但 AI 数据库这条赛道不一样:

  • 全球几乎同起跑线,Oracle 的存量优势在"AI 如何用数据"这个新命题面前不是降维打击
  • 非结构化第一次"可计算"、自然语言第一次替代 SQL 当交互入口,这两条都是新命题
  • 中国有自己的筹码:最复杂的移动支付、最大规模电商、千万级 Agent 落地(灵光 3000 万不是 PPT 数字)

OceanBase CEO杨冰现场那句"从跟随者成长为共同定义者",不是喊口号的语境——定义标准的前提,是你有足够复杂、足够前沿的场景去验证产品。这一点国产厂商这次真的有牌。

但也要泼盆冷水:能定义品类的,要么是标准制定者,要么是被覆盖者,没有中间态。OceanBase 这次先把"AI 数据库应该长什么样"的定义抛出来,再把产品摆出来说"我们做出来了"——这个顺序本身就是一次话语权争夺。友商跟不跟、怎么跟,接下来的一两年内就能看到分晓。

写在最后

数据库行业数十年,国外厂商长期主导标准定义,从TP、数仓到湖仓一体,国内厂商多为跟随者。AI时代Agent、多模态数据带来全新底层需求,国内外厂商站在同一条起跑线,OceanBase基于十五年金融级分布式内核积累,推出湖库一体全新架构,给出国产数据库面向AI时代的系统性解决方案。

站在DBA长期运维视角判断:AI数据库的核心竞争力从来不是单一向量检索速度,而是一致性、实时性、多模态统一治理、海量Agent规模化承载四大综合工程能力。湖库一体架构打通交易、湖存储、语义检索、智能体沙箱全链路,解决长期困扰企业的多系统碎片化技术债务,是第四代——数据库 AI 时代数据基建极具参考价值的国产创新路线。

技术永远没有完美产品,尤其在国产数据库资料、文档缺乏的情况下,湖库一体架构同样存在内核复杂、运维学习成本高等困难,但它指明了下一代企业级AI数据底座的演进方向,值得所有数据库从业者持续跟进、落地验证。

老铁们,你们怎么看"湖库一体"这条路线?手上如果有 AI 项目正在选型,是倾向 OB/Databricks/Doris/还是 PG+ 向量插件凑合?欢迎评论区一起聊聊,最后别忘了点赞 + 在看 呀!

全文完,希望可以帮到正在阅读的你,如果觉得有帮助,可以分享给你身边的朋友,同事,你关心谁就分享给谁,一起学习共同进步~~~

欢迎关注我的公众号【JiekeXu DBA之路】,一起学习新知识!
——————————————————————————
公众号:JiekeXu DBA之路
墨天轮:https://www.modb.pro/u/4347
CSDN :https://blog.csdn.net/JiekeXu
ITPUB:https://blog.itpub.net/69968215
腾讯云:https://cloud.tencent.com/developer/user/5645107
——————————————————————————

facebook_pro_light_1920 × 1080  副本.png

最后修改时间:2026-07-03 10:17:11
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论