
本周六,很荣幸作为观察员受邀参加第二届 OceanBase 开发者大会,会上遇到了很多行业大咖、同行好友,之前多是线上学习交流数据库问题,此次线下沟通交流显然效果更好,期待未来有更多类似交流机会。

这两天也有不少好友发表此次 OceanBase 开发者大会感受,他们的总结和评价很精彩,有兴趣的同学也可以看看这些文章:
我的参会记要:OceanBase第二届开发者大会
一体化浪潮来袭,从产品角度看 OB 大会
这几年我在工作遇到了一些场景,需要数据库同时具备 OLTP 和 OLAP能力,所以对数据库 HTAP 特性一直有关注,而本次 OB 发布的版本一个重要特性就是HTAP能力。因此,本文就聊聊数据库 HTAP 哪些事。
OceanBase New Features:HTAP
这次开发者大会 OceanBase 正式发布 4.3 版本,强化 TP & AP 一体化,打造 PB 级实时分析数据库,将事务处理(OLTP)和分析处理(OLAP)融合到同一个数据库系统中,为企业提供了更全面、更高效的数据处理能力。
过去传统企业的数据库,一般会通过 OLTP 数据库来支持联机交易, 用 OLAP 来实现联机分析业务需求,TP 和 AP 之间的数据通过 ETL 流转。这套解决方案架构复杂,时延较大,运维成本也较高。因此,企业需要一款 HTAP 数据库产品来简化系统架构,减小时延,降低运维成本,同时还要提高数据一致性和可靠性,4.3 版本的 OceanBase 正是为此而来。

What’s HTAP
HTAP(Hybrid Transaction Analytical Processing,混合事务分析处理)概念是由权威调查机构 Gartner 提出的,它给出的定义:即同时支持 OLTP 和 OLAP 场景,在一份数据上保证事务的同时支持实时分析,省去费时费力的 ETL 过程。
和集中式、分布式数据库一样,HTAP 数据库也有集中式和分布式之分,其中集中式 HTAP 类似 Oracle In-Memery ,分布式 HTAP 有 OceanBase,他们最大的区别还是横向扩展能力。
集中式架构的 scale up 是有上限的,譬如CPU规格、IO的吞吐与IOPS能力,所以小型规模业务可能用 Oracle 数据库就够了,如果随着时间的推移数据量越来越大,通过横向扩展提供更多的计算资源与IO资源可以很好的满足业务数据量的增长。

Industry Situation|行业现状
前面提到传统 ETL 局限性,然而企业数据处理需求的增长和对实时洞察力又有迫切需求,因此数据库的 HTAP 特性,受到学界和商业领域广泛关注。目前也有一些数据库产品提供了HTAP功能,MySQL HeatWave、TiDB等。
MySQL HeatWave
MySQL HeatWave 集群方式向应用提供读写,它包括 OLTP 引擎和多个 HeatWave 引擎节点,应用访问方式不变,即不需要感知是否需要显示的连接 HeatWave 节点。见下图架构。
传统的 OLTP 场景,它的数据读写方式和访问单机 MySQL 没有变化。而 一些 OLAP 场景语句,会访问 HeatWave 引擎上,它的数据是以列方式存储,并在内部结合多核和SIMD向量处理,显著提高了分析场景下的性能。

TiDB
早期的 TiDB 是解决 OLTP 场景下问题,随着市场需求变化,它发展成为一款 HTAP 产品。TiDB 的解决方式是通过raft算法在新增副本上构建OLAP能力,实时的把 TiKV 中的行存数据转成 TiFlash 列存,TP和AP 通过物理组件进行隔离,并依赖 multi-raft group 并行复制能保证 TiFlash 组件中的数据实时性。见下图架构。

2022 年 SIGMOD 收录了清华大学李国良教授《HTAP Database: What is New and What is Next 》,李教授的文章详细分析了 HTAP 数据库关键技术,包括事务处理、查询分析、数据组织、查询优化以及资源调度等。另外,这篇论文还分析了 HTAP 主要的应用场景与优缺点,以及 HTAP 基准测试、未来的研究方向与挑战。
OceanBase:What's Next
再话说回本次 OceanBase 开发者大会,会上OceanBase CTO 日照也公布了未来OB的 Roadmap,未来OB将会加强列存表、向量引擎、全文搜索、基于S3 的存算分离等能力。这与现在的 AI4DB 或者 DB4AI 趋势很吻合,可以看见 OceanBase 即将成为六边形全能战士。

Summary | 总结
本文只是简单的提到 HTAP 一些概念,由于 OceanBase 4.3 版本刚发布,其 HTAP 的实现原理、HTAP 数据中常见挑战是如何解决、优化等信息并没有披露过多,等后续官方发布相关材料再深入学习。
总的来说,2024 OceanBase 开发者大会非常成功,我作为大会的观察员受邀观摩学习也是收获满满。众所周知,目前国内有300多家数据库厂家,通过OB这些年的变化、成长,大家也都看到了其作为一家国产数据库的努力。
正如白鳝老师所说:未来3年,国产数据库厂家会淘汰大部分,而OceanBase 是会为数不多能存活下来的企业之一。


作者介绍
司马辽太杰,目前就职于一家国有企业,主要负责数据库连续性保障、性能优化、架构选型和设计。10余年数据库架构和管理经验,专注于数据库运维、架构和行业发展,擅长常见关系型、NoSQL、MPP 等类型数据库。杭州乡下桐庐人,业余热爱历史、足球,偶尔读点闲书。欢迎关注个人公众号“程序猿读历史”,也可以搜索微信号:Robinho_hj,加我好友。


01
02
03

END





