暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

2022年中国数据库行业年度分析报告:超融合与流式数据处理

原创 亚信科技 2023-02-27
915

一、谈传统数据库与流计算模式的有机融合

国务院近日发布的《关于构建数据基础制度更好发挥数据要素的工作意见》,也被业内称为“数据二十条”,在新二十条的指导下,为充分发挥我国数据规模和丰富应用场景优势,国产数据库面临的挑战,主要有以下两个方面:

(1)简化融合

数字化深化带来技术需求的多元化,与之对应的产品方案也呈同样态势。如果能从统一管理的角度简化使用,通过单一平台提供所需能力,无疑对用户非常有吸引力。AntDB数据库全新推出的超融合架构,在统一框架下,实现了交易、分析、流处理等多种数据处理能力的融合,用一款产品为客户带来“一站式”的数据管理服务。

(2)实时性

数据更多参与企业决策、驱动业务变化。一些数据在业务发生后不久具有很高的价值,随着时间的推移,数据的价值会逐步降低。因此,数据的处理速度变得尤为重要,实时处理的关键价值之一在于能够更快地提供数据洞察。AntDB数据库通过内核级的数据流式处理,使传统数据库与流计算模式有机的融合,大幅降低实时业务架构的复杂度,给DBA、BI工程师带来便利,进一步减低人们使用数据的门槛。

二、超融合架构,打造分布式数据库新纪元

谈国产数据库,必谈分布式与云计算能力。上一个十年,随着国内金融、互联网行业高速发展,带来的数据规模庞大,查询复杂度高、关联度高等业务需求。相比于集中式数据库,分布式数据库具有平滑扩展、高可靠、高可用、低成本等关键特性和显著优点;而数据库等基础软件的服务方式向云化发展,有利于降低数据库运维成本,灵活调度资源。

在下一个十年,“数智化转型”是推动经济社会从“量增”到“质变”的快速路。用户对数据库的需求日益精细化,从技术底层支撑多业务的系统架构,将越来越受到企业侧的青睐。在此背景下,多引擎数据库的融合能力开始出现,HTAP、湖仓一体、流批一体等都是这个趋势的先行者,即超融合。

D:\360MoveData\Users\呼呼\Desktop\下载 (5).jfif下载 (5)

图1:亚信科技 AntDB 数据库超融合框架

亚信科技AntDB提出了全新的“超融合”理念,即将多引擎、多能力融合在一起,满足企业越发复杂的混合负载场景与混合数据类型业务需求。AntDB的超融合框架,能够充分利用分布式数据库引擎的架构优势,在HTAP概念上进行进一步拓展,将时序存储、流处理执行以及向量化分析等多引擎进行统一架构封装。

在同一个数据库集群支持多种业务模型,支持多样化的数据需求,大大降低业务系统的复杂性,实现统一框架下的“一站式数据管理”。

三、流式处理引擎,颠覆50年未变的数据库内核

(1)流式处理的概念

2001年9月11日,美国世贸大楼被袭击,美国国防部第一次将“主动预警”纳入国防的宏观战略规划。而IBM作为当时全球最大的IT公司,承担了大量对于基础支撑软件研发的任务。其中2009年正式发布的IBM InfoSphere Streams,就是全球最早真正意义上的商业化流数据处理引擎之一,通过对实时产生数据预先定义好处理逻辑后,随着每一个事件的发生执行相应的处理与判定程序。

流式处理机制直接被后期的Apache Storm、Spark Streaming、Flink等流处理框架所借用,应用于大量实时互联网类型的业务中,对前方产生的海量事件进行实时预处理。Gartner在《2022中国数据库管理系统市场指南》中,对其定义为:涉及对“事件”(event)的观察和触发,通常在“边缘”采集,包括将处理结果传输至其他业务阶段。流式处理将在未来五年中获得更多关注。

1673404925114

图2:Gartner对于流/事件处理的定义

(2)传统部署架构的痛点

不论Apache Storm、Spark Streaming、还是Flink等流处理框架的设计,都是将目光集中在“处理”本身。由于其自身不具备数据库的能力,当需要与其他数据进行关联、临时存储等互动时,则需要进行复杂的数据抽取。这使得大量的开发人员,还需要编写复杂的Java/C++/Scala代码,用最传统的方式对记录进行一条条预处理,并且还需要经常从其他外部的缓存/数据库中实时调取额外数据进行手工关联,对开发和运维的负担极大。

而数据库作为信息的核心载体,在过去的半个世纪中其基本的设计理念完全没有过大的改变,所有对于实时数据处理的能力,都是通过应用框架直接建立在数据库引擎之外的。真正与数据贴合最为紧密的软件产品,在过去的20年中并没有充分发挥自己的能力与优势地位。

因此,数据库融入流式数据处理能力,是这几年行业中提出的全新课题。亚信科技AntDB数据库就是最具典型的代表,可以通过SQL+触发器对实时数据的处理逻辑与拓扑进行定义,也是国内为数不多的率先研发并具备“超融合+流式处理”能力的数据库。

在亚信科技AntDB发展的十几年历程中,我们看到运营商大量对核心数据处理加工的业务场景。这些需求中有些能够很容易地使用传统技术满足,但还有一些一定需要采用流式计算等实时处理能力才能支持。

(3)数据库与流式处理的有机融合

流数据处理模式与传统数据库的内核设计有着极大的区别。其核心本质在于,传统数据库架构设计中,应用与数据库之间是“请求-响应“的关系,即业务发起SQL请求,数据库随即执行请求并返回结果。

而流处理内核则是“订阅-推送“的模式。通过预先定义好的数据处理模型,对数据承载的业务“事件”进行处理,之后将处理后的结果推送给下游应用进行展现或入库。

因此在流式数据实时处理领域,亚信科技AntDB做了大量从零开始的创新性探索与研究,于2022年底推出AntDB-S流处理数据库引擎,彻底将流式计算与传统交易、分析型数据存储进行了融合,让用户可以在数据库引擎内,通过标准SQL自由定义数据的结构以及实时处理逻辑。

图3:亚信科技 AntDB 数据库流式处理引擎的基础架构

同时数据在数据库内部的流对象、表对象之间自由流转过程中,用户可以随时通过建索引、流表关联、触发器、物化视图等方式对数据进行性能优化、数据加工、集群监控、以及业务逻辑定制。

(4)功能优势

  • 技术堆栈简化:在实时流事件的处理上,AntDB流式处理一体引擎将大量的实时数据处理做到数仓内部,更进一步向通用事务靠拢。
  • 标准SQL定义:传统流处理方式对于SQL的处理很弱,还要写大量业务代码,而AntDB-S可以通过统一SQL语句进行处理,流的使用上更便捷。
  • 统一数据接口:支持流批模式的转换,AntDB统一超融架构,实现了对外的接口统一,数据的采集与处理无需分开,流批都用SQL 即可全部搞定。
  • 支持完整事务处理:传统流处理过程中不支持数据的修改,AntDB-S支持流处理中对数据的修改和事务操作。
  • 实时结果更准确:通过分布式事务的ACID特性,解决实时流数据处理中,数据容灾和一致性的问题,可以精确判断数据故障点,完成流事件的矫正计算和重统计。

四、实时数据平台,快速实现企业全链路实时化

引入数据仓库、数据挖掘、HTAP等先进理念,通过实时数据应用平台来装载庞大的信息量,进行实时分析处理,克服数据处理过程中的困难,是当下各企事业单位、互联网、金融,政务等行业核心系统建设的重点。

AntDB-S流式数据库可以被应用于实时数仓、实时报表、实时告警、异步交易等业务场景,用户可以通过直接使用简单SQL创建复杂的流式数据处理业务逻辑,轻松替代Apache Storm、Spark Streaming、Flink等传统流式处理引擎。

D:\360MoveData\Users\呼呼\Desktop\下载 (4).jfif下载 (4)

图4:亚信科技 AntDB 数据库新一代流式处理引擎

譬如说,对于实时统计报表来说,所有的统计指标项都可以通过 SQL命令做到监测实时变化数据。而对于实时告警来说,所有的告警记录都能够被数据库在毫秒级推送给前端应用,而不需要应用定时从告警表中反复循环查询。

在对传统流式引擎替代的过程中,AntDB-S可以帮助用户节省大量的开发与测试资源,同时数据的安全性与ACID也完全依托于其底层的AntDB数据库,从根本上保证数据的一致性与安全可靠。除此以外,AntDB数据库所支持的全部高可用、容灾、多租户、鉴权授权、分布式、事务等能力将会完全被AntDB-S所继承,几十倍降低用户对流式业务的开发与维护成本。

图形用户界面

中度可信度描述已自动生成

图5:亚信科技 AntDB 数据库功能特点

五、典型业务场景

  • 实时营销:实时捕获所需的业务信息和数据,向用户主动推动即时的数据统计和分析服务。
  • 风险监测与实时预警:根据不同业务系统的风险监测需要,提供了各自的预警规则,适用于银行、警务、交通、城市安全治理等场景。
  • 精细化营销:助力行业客户建立营销数据库,以数据挖掘和数据分析的结果为依据使营销过程标准化、高效化。
  • 数据共享价值:消除数据孤岛,通过实时数据安全计算,实现多方数据的可用不可见、数据不动价值动,打造智能化、可视化、规范化的数据共享与管理。
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论