导读
snowflake、mongodb的火热让数据库重新回到大众视野。
上篇文章着重分析了开源和云原生的数据库发展趋势,这篇文章梳理一下数据库近期的发展趋势,并且重点讨论一下时序数据库的特征。
市场规模
从市场规模来看,根据中国信息通信研究院发布的《2021年度数据库发展研究报告》指出,2020年我国数据库的市场规模达到了240.9亿人民币,未来5年将会保持23.35%的年复合增长率, 并且在2025年来到688亿美元,是目前国内基础软件领域增速较高的细分市场。

从全球的数据库发展来看,2020年全球的数据库市场规模是671亿美元,到2025年将会达到798亿美元,年复合增速达到3.5%。

可以看到的是,在2020年中国数据库市场占全球市场只有5.12%,但是在2025年这个数字将会提升到12.31%。但12.31%的比例并不是一个理想的占比,单从数据的角度来看,中国云计算、智能制造、物联网等行业在蓬勃的发展,在国家新基建的政策指引下,同时叠加丰富的数据应用场景,中国的数据库市场仍然会迎来进一步的渗透。
数据库市场发展
从早期的关系型数据库,到目前的后关系型数据库时代,数据库的发展可以总体分为三个阶段;
1960-1970:前关系型数据库阶段
以IDS、IMS为代表的数据库,主要是解决数据存储和共享的问题,但是在数据抽象程度和独立性上存在明显的不足。
数据库的结构:

1970-2008:关系型数据库阶段
标志是E.F.Codd关系型数据库奠基论文发布。
这个阶段诞生了一大批关系型数据库的玩家,DB2、Sybase、Oracle、SQL Server、MySQL、PostgreSQL等,他们早期掌握技术先发优势,并在在长达30多年的发展过程中,不断积累产品和技术经验,适应多种场景。
论述范式理论作为开启标志,诞生了一批关系型数据库,但是随着互联网的发展,集中式数据库无法承接巨大的数据容量和业务规模。
数据库架构:

2008-至今:后关系型数据库时代
多种数据库种类:文档、键值、全文检索、图数据库、列存数据库、时序数据库等。MongoDB、Redis、TiDB、Neo.4J等。
谷歌三大论文开启了大数据时代,数据规模爆发性增长、数据类型不断丰富、数据应用不断深化,技术路线多样化发展。
数据库架构:

对于关系型数据库和非关系型数据库的简介:

发展到目前阶段,数据库大家庭已是百花齐放:

虽然数据库种类越来越多,但整体来看,还是关系型数据库为主导。在DBengine显示的378个数据库中(统计时间是2021年9月份),有151个数据库均是关系型数据库。

但我们对比趋势图可以看到,非关系型数据库正在变得流行起来:
2013-2021年数据库趋势图:
过去12个月数据库趋势图:
明显的可以看到图数据库、时序数据库等趋势逐渐提升。
那什么是时序数据库呢?
时序数据库
时序数据库,顾名思义,是一个为了用于处理时间序列数据而优化的软件系统,其按时间数值或时间范围进行索引。带时间标签的数据也称为时间序列数据,时间序列数据主要由电力行业、化工行业等各类型实时监测、检查与分析设备所采集、产生的数据。
时序数据库针对的是时序数据,时序数据有以下特点:
时序特点:每条数据会有时序戳,精度上有所不同,工业会以ms、ns为单位,数据采集一种以可感知的周期频率采集,另外一种是以不可感知的网站PV/UV采集。
数据特性:数据带来的价值随着时间的推移而逐渐降低,存在冷热归档的特性,同时包含一些具体的数值、状态和事件。
CRUD特性:写操作频率远远大于读,并存在时间窗口。通常极少更新数据。
而处理这些数据传统关系型数据库会遇到一些问题:
存储成本高:数据数据压缩不佳,需要占用大量机器资源。
维护成本高:单机系统,需要在上层人工的分库分表,维护成本高。
写入吞吐低:很难满足时序数据库千万级写入压力。
查询性能差:用于交易处理,海量数据的聚合分析性能差。
数据延迟高:离线批处理数据,数据从产生到可分析,耗时数小时。
查询性能差:不能很好的利用索引,依赖mapreduce任务。
而时序数据库需要解决的是:
写入-支持每秒钟上千万上亿数据点的写入;
读取-支持秒级对上亿数据的分组聚合运算;
存储-更低的存储成本。
目前时序数据库玩家众多,主流有influxDB、Kdb+等时序数据库,被应用于工业物联网场景、车联网场景等多种场景之中。
未来随着车联网、物联网、工业物联网等的数据采集技术发展,实时的热数据采集上传是一个巨大的市场,而时序数据库的玩家们需要解决如何设计数据结构和存储方式,能够实现大批量的写入并且不断的节省存储成本,同时配合业务场景做聚合分析,在整体数据上传过程中配合流式计算做设备的动态监控和预警,丰富化应用场景。
作者 | 桑 菁
编辑 | 桑 菁






