暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

OceanBase 2024 开发者大会:从 OB 新特性聊 HTAP

程序猿读历史 2024-04-23
208

本周六,很荣幸作为观察员受邀参加第二届 OceanBase 开发者大会,会上遇到了很多行业大咖、同行好友,之前多是线上学习交流数据库问题,此次线下沟通交流显然效果更好,期待未来有更多类似交流机会。

这两天也有不少好友发表此次 OceanBase 开发者大会感受,他们的总结和评价很精彩,有兴趣的同学也可以看看这些文章:

我的参会记要:OceanBase第二届开发者大会

一体化浪潮来袭,从产品角度看 OB 大会

以一个"外行人"视角,聊聊OB开发者大会

OceanBase不甘心只做分布式数据库

数据库与万有引力

今年的OB开发者大会很热闹

这几年我在工作遇到了一些场景,需要数据库同时具备 OLTP 和 OLAP能力,所以对数据库 HTAP 特性一直有关注,而本次 OB 发布的版本一个重要特性就是HTAP能力。因此,本文就聊聊数据库 HTAP 哪些事。

OceanBase New Features:HTAP

这次开发者大会 OceanBase 正式发布 4.3 版本,强化 TP & AP 一体化,打造 PB 级实时分析数据库,将事务处理(OLTP)和分析处理(OLAP)融合到同一个数据库系统中,为企业提供了更全面、更高效的数据处理能力。

过去传统企业的数据库,一般会通过 OLTP 数据库来支持联机交易, 用 OLAP 来实现联机分析业务需求,TP 和 AP 之间的数据通过 ETL 流转。这套解决方案架构复杂,时延较大,运维成本也较高。因此,企业需要一款 HTAP 数据库产品来简化系统架构,减小时延,降低运维成本,同时还要提高数据一致性和可靠性,4.3 版本的 OceanBase 正是为此而来。

What’s HTAP

HTAP(Hybrid Transaction Analytical Processing,混合事务分析处理)概念是由权威调查机构 Gartner 提出的,它给出的定义:即同时支持 OLTP 和 OLAP 场景,在一份数据上保证事务的同时支持实时分析,省去费时费力的 ETL 过程。

和集中式、分布式数据库一样,HTAP 数据库也有集中式和分布式之分,其中集中式 HTAP 类似 Oracle In-Memery ,分布式 HTAP 有 OceanBase,他们最大的区别还是横向扩展能力。

集中式架构的 scale up 是有上限的,譬如CPU规格、IO的吞吐与IOPS能力,所以小型规模业务可能用 Oracle 数据库就够了,如果随着时间的推移数据量越来越大,通过横向扩展提供更多的计算资源与IO资源可以很好的满足业务数据量的增长。

Industry Situation|行业现状

前面提到传统 ETL 局限性,然而企业数据处理需求的增长和对实时洞察力又有迫切需求,因此数据库的 HTAP 特性,受到学界和商业领域广泛关注。目前也有一些数据库产品提供了HTAP功能,MySQL HeatWave、TiDB等

  • MySQL HeatWave

MySQL HeatWave 集群方式向应用提供读写,它包括 OLTP 引擎和多个 HeatWave 引擎节点,应用访问方式不变,即不需要感知是否需要显示的连接 HeatWave 节点。见下图架构。

传统的 OLTP 场景,它的数据读写方式和访问单机 MySQL 没有变化。而 一些 OLAP 场景语句,会访问 HeatWave 引擎上,它的数据是以列方式存储,并在内部结合多核和SIMD向量处理,显著提高了分析场景下的性能。

HeatWave架构图
  • TiDB

早期的 TiDB 是解决 OLTP 场景下问题,随着市场需求变化,它发展成为一款 HTAP 产品。TiDB 的解决方式是通过raft算法在新增副本上构建OLAP能力,实时的把 TiKV 中的行存数据转成 TiFlash 列存,TP和AP 通过物理组件进行隔离,并依赖 multi-raft group 并行复制能保证 TiFlash 组件中的数据实时性。见下图架构。

TiDB 架构图

2022 年 SIGMOD 收录了清华大学李国良教授《HTAP Database: What is New and What is Next 》,李教授的文章详细分析了 HTAP 数据库关键技术,包括事务处理、查询分析、数据组织、查询优化以及资源调度等。另外,这篇论文还分析了 HTAP 主要的应用场景与优缺点,以及 HTAP 基准测试、未来的研究方向与挑战。

该论文除了前面提到的 MySQL HeatWave、TiDB外,还详细介绍了Db2、SAP HANA 、Oracle in-memery、SQL Server 等产品。通过李教授对这些产品介绍,用行存解决 OLTP 、列存解决OLAP 需求是标准答案,但如何在工程层面解决两种引擎的数据延迟、一致性等问题依旧考验各个数据库厂家。
论文地址:
https://dl.acm.org/doi/pdf/10.1145/3514221.3522565

OceanBase:What's Next

再话说回本次 OceanBase 开发者大会,会上OceanBase CTO  日照也公布了未来OB的 Roadmap,未来OB将会加强列存表、向量引擎、全文搜索、基于S3 的存算分离等能力。这与现在的 AI4DB 或者 DB4AI 趋势很吻合,可以看见 OceanBase 即将成为六边形全能战士。

其中我最关心的还是兼容 S3 的存算分离架构,虽然目前 OceanBase 公有云版本也有基于云盘实现了存算分离,但是云盘的价格和标准的 S3 对象存储的价格有数量级的差距。未来 OB 支持了 S3 存储,相信它会更有性价比,将给中小企业带了显著的科技普惠的效益。

Summary | 总结

本文只是简单的提到 HTAP 一些概念,由于 OceanBase 4.3 版本刚发布,其 HTAP 的实现原理、HTAP 数据中常见挑战是如何解决、优化等信息并没有披露过多,等后续官方发布相关材料再深入学习。

总的来说,2024 OceanBase 开发者大会非常成功,我作为大会的观察员受邀观摩学习也是收获满满。众所周知,目前国内有300多家数据库厂家,通过OB这些年的变化、成长,大家也都看到了其作为一家国产数据库的努力。

正如白鳝老师所说:未来3年,国产数据库厂家会淘汰大部分,而OceanBase 是会为数不多能存活下来的企业之一。

作者介绍

司马辽太杰,目前就职于一家国有企业,主要负责数据库连续性保障、性能优化、架构选型和设计。10余年数据库架构和管理经验,专注于数据库运维、架构和行业发展,擅长常见关系型、NoSQL、MPP 等类型数据库。杭州乡下桐庐人,业余热爱历史、足球,偶尔读点闲书。欢迎关注个人公众号“程序猿读历史”,也可以搜索微信号:Robinho_hj,加我好友。

01

企业数据库工作1:数据库选型,除了TPS、QPS还要关注什么?



02

企业数据库工作2:团队培养,如何高效阅读数据库文档



03

企业数据库工作3:数据库连续性,我们该知道什么(上)




END


文章转载自程序猿读历史,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论