2010 年,OceanBase 写下第一行代码;2022 年发布 4.0版本小鱼。OceanBase在过去的十四年里,坚持自研,用自研持续引领分布式数据库的发展,逐渐成为开发者喜欢的数据库。
2023 年 3 月,OceanBase 在北京召开第一届「OceanBase 开发者大会」,会上,OceanBase发布了面向开发者的里程碑版本——4.1 版本,分享和交流了如何打造一个对开发者友好的分布式数据库的思考。
时隔一年,2024 OceanBase 开发者大会将于4月20日在上海举行。
Flink 作为实时计算领域的事实标准,被很多 OceanBasse 社区⽤户使⽤并在实时数仓业务场景应用。⽤户通过以及相应⽣态⼯具,让数据可以在不同系统中⾃由流转。⽐如将上游的源端 MySQL 或者 OceanBase 数据,同步到下游 OceanBase、Kafka 等⽬标端。
为了进一步提升 Apache Flink 在数据集成场景的应用,阿里巴巴于近期捐赠了 Flink CDC 项目到 Apache 基金会(官宣|阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会),为数据集成带来了极简的开发体验和强大的能力。阿⾥云提供的实时计算Flink版是全托管Serverless Flink云服务,提供了 Flink CDC 作业开发、数据调试、运⾏与监控、⾃动调优、智能诊断等全生命周期能力,并内置了丰富的上下游连接器。
本次⼤会,联通云粒将带来基于Flink CDC和OceanBase 打造⾼性能实时数仓解决⽅案,希望助⼒企业构建⾼效、稳定和强⼤的实时数据应⽤。
议题推荐
分论坛名称:创新实践专场
分论坛时间:14:50-15:10
讲师:付大伟(云粒智慧高级技术专家)
演讲题目:联通云粒基于Flink CDC和OceanBase 打造高性能实时数仓
演讲内容:随着数据中台的逐步普及,企业对数据中台中数据集成,数据治理,数据应用全链路时延的容忍度越来越低。传统的离线同步和跑批处理已经越来越无法满足企业要求。基于此,云粒的星河数据中台采用 Flink CDC 捕获和传输数据变化,结合 HTAP 分布式数据库 OceanBase,真正意义上实现了实时数据中台。
本次分享主要分为以下四个部分:
原技术方案使用基于 DataX + Hive 数据同步和数仓架构,在实际应用效果上存在:
原技术方案使用基于 DataX + Hive 数据同步和数仓架构,在实际应用效果上存在:
实时性较差:数据入仓及分析计算延迟达到分钟级,无法满足客户实时性要求
资源使用不合理:批量调度对服务器资源占用峰值过高,资源使用严重失衡,业务成本增加
数据集成过程中遇到的新问题及思考
基于以上问题,我们考虑对原方案进行优化,在优化过程中发现:已有的数据接入架构复杂,链路很长,因此选择对其重构并引入 Argo 全部转为云原生方式运行,这样对资源的使用可以更加合理调控。在引入 Flink进行实时计算后,通过 CDC 数据接入方式解决实时性较差问题。同时针对使用门槛高、维护困难的问题,使用 SQL化、配置化方式降低使用难度;
基于 Flink CDC + OceanBase 方案的实时数仓实现
在进行充分的调研和选型对比之后,我们决定采用 Flink CDC + OceanBase 的方案来满足数仓实时性的需求。新方案使用 Flink CDC 使得数据延迟控制在 5s 以内,同时利用 OceanBase 的 HTAP 能力做到仓内源层数据的实时更新;同时,我们使用 OceanBase 云原生方案将中台整体运行在 K8S 集群上,使得离线任务、流计算任务均可动态扩容;并在任务运行前评估资源占用并给予配额,大幅提升资源使用效率。
改进后的效果以及对服务器资源带来的影响
采用新方案之后,数据入仓由分钟级优化至秒级,原离线调度资源占用减少 30% 左右,在保证实时性的同时资源占用大幅减少。目前新方案已经在多家企业和多个场景中得到验证:某省水文监测数据的告警计算、某环保数据的污染物评价及分析、某市交通局事件监控及告警等业务。
OceanBase 开发者大会 · 2024期待您的加入,一起发现新的机会,续写“1+1>2”的故事。
本届大会将邀请业界知名的数据库大咖和数据库爱好者,与开发者共同探讨一体化、多模、TP 与 AP 融合、多云原生等前沿趋势,分享全新的产品 Roadmap,交流场景探索和最佳实践。
4 ⽉ 20 ⽇ 上海⻅!





点击「阅读原文」,即可跳转~



