暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

中国信通院发布《数据库发展研究报告(2021年)》(附下载方式)

2021624日,由中国信息通信研究院(以下简称中国信通院)主办的2021大数据产业峰会·成果发布会在京召开。会上,中国信通院云计算与大数据研究所副所长魏凯发布了《数据库发展研究报告(2021年)》(以下简称报告)。

当前,新一轮科技革命迅猛发展,数据规模爆炸性增长、数据类型愈发丰富、数据应用快速深化,促使数据库产业再次进入创新周期中的混沌状态。全球范围内创新型数据库产品快速涌现,市场格局剧烈变革,我国数据库产业进入重大发展机遇期。报告显示,2020年,全球数据库市场规模达到671亿美元,中国数据库市场规模约为241亿元,占比约5.2%。预计到2025年,全球数据库市场规模将达到798亿美元。中国数据库市场总规模将达到688亿元,市场年复合增长率(CAGR)23.4%2020年中国公有云数据库市场规模为107.68亿元,未来5年,公有云数据库市场年复合增长率将达到36.1%,预计到2025年,中国公有云数据库市场总规模将达到503.31亿元。

此外,技术方面,报告梳理了数据库发展三个关键阶段,探讨了未来数据库技术演进的主要方向;产业方面,报告对产业主体、研发模式、产品分布、推广策略等方面,分析我国数据库产业的主体特点、市场格局、发展态势等;应用方面,报告以金融、电信、政务、制造业和互联网为代表,研究当前应用现状、问题以及下一步应用趋势;报告还讨论了当前我国数据库行业存在的挑战,并给出相关建议。

以下为演讲实录

大家好,我是中国信息通信研究院云计算与大数据研究所魏凯,今天很荣幸由我来为大家解读《数据库发展研究报告》。本报告是由信通院云大所数据库团队与行业专家联合编制完成,涉及数据库技术、产业、应用等多个方面,下面我将为大家解读报告内容。

企业级数据库产品诞生于上世纪60年代,六十余年发展过程中,数据库共经历前关系型、关系型和后关系型三大阶段。前关系型阶段数据库的数据模型主要基于网状模型和层次模型,代表产品分别为IDS和IMS,该类产品在当时较好地解决了数据集中存储和共享的问题,但在数据抽象程度和独立性上存在明显不足。

关系型阶段以IBM公司研究员埃德加·考特提出关系模型概念,论述范式理论作为开启标志,期间诞生了一批以DB2、Sybase、Oracle、SQL Server、MySQL、PostgreSQL等为代表的广泛应用的关系型数据库,该阶段关系理论基础不断夯实、技术脉络逐步清晰、市场格局趋于稳定。

2010年前后随着大数据时代的到来,正式开启后关系型数据库阶段,该阶段由于数据规模爆炸增长、数据类型不断丰富、数据应用不断深化,技术路线呈现多样化发展,具体表现为数据模型不断拓展、分布式架构逐渐成熟。随着各行业数字化转型不断深入,5G、云计算等新兴技术快速发展,传统数据库的应用系统纷纷优化升级。全球市场格局剧烈变革,我国数据库产业进入重大发展机遇期。

后关系型数据库阶段,数据量不断爆炸式增长,数据存储结构也越来越灵活多样,日益变革的新兴业务需求催生数据库及应用系统的存在形式愈发丰富,这些变化均对数据库各类能力不断提出挑战,推动数据库技术的不断演进,总结起来体现为三个方向:

一是多模数据库实现一库多用、利用统一框架支撑混合负载处理、运用AI实现管理自治,提升易用性、降低使用成本;

二是充分利用新兴硬件、与云基础设施深度结合,增强功能、提升性能;

三是利用隐私计算技术助力安全能力提升、区块链数据库辅助数据存证溯源,提升数据可信与安全。

后关系型数据库阶段,数据结构越来越灵活多样,如表格类型的关系数据、半结构化的用户画像数据以及非结构化的图片和视频数据等。面对这些多种结构的数据,应用程序对不同数据提出了不同存储要求,数据的多样性成为数据库平台面临的一大挑战,数据库因此需要适应多类型数据管理的需求。多模数据库支持灵活的数据存储类型,将各种类型的数据进行集中存储、查询和处理,可以同时满足应用程序对于结构化、半结构化和非结构化数据的统一管理需求。

业务系统的数据处理分为联机事务处理(OLTP)与联机分析处理(OLAP)两类。企业通常维护不同数据库以便支持两类不同的任务,管理和维护成本高。因此,能够统一支持OLTP和OLAP的数据库成为众多企业的需求。产业界当前正基于创新的计算存储框架研发HTAP数据库,其能够基于统一套引擎同时支撑业务系统运行和分析决策场景,避免在传统架构中,在线与离线数据库之间大量的数据交互。

目前HTAP大致有两种实现方式:

第一种是主备库物理隔离,主库运行OLTP负载,备库运行OLAP负载,主备之间通过重做日志进行数据同步。

第二种是采用一体化设计,通过同一套引擎实现混合负载,区分OLTP与OLAP请求所在资源组,对资源组进行逻辑隔离。HTAP的价值在于更加简单通用,对于绝大部分中等规模的客户,数据量不会特别大,只需要一套系统即可,但对于超大型互联网企业,HTAP数据库的分析性能可能不如专用OLAP数据库或大数据平台。

目前有研究通过将传统数据库组件用AI、机器学习算法替代,来实现更高的查询和存储效率,自动化处理各种任务,例如自动管理计算与存储资源、自动防范恶意访问与攻击、主动实现数据库智能调优。机器学习算法可以分析大量数据记录,标记异常值和异常模式,帮助企业提高安全性,防范入侵者破坏,还可以在系统运行时自动、连续、无人工干预地执行修补、调优、备份和升级操作,尽可能减少人为错误或恶意行为,确保数据库高效运行、安全无失。未来80%以上的日常运维工作有望借助AI完成。

最近十几年,新兴硬件在经历学术研究、工程化和产品化阶段发展,对数据库系统设计提供了广阔思路。期间最主要的硬件技术进步是多处理器、多核、大内存和固态硬盘,多处理器和多核为并行处理提供可能,SSD大幅提升了数据库系统的IOPS和降低延迟,大内存促进了内存数据库引擎的发展。非易失性内存(NVM)具有容量大、低延迟、字节寻址、持久化等特性,能够应用于传统数据库存储引擎各个部分,如索引、事物并发控制、日志、垃圾回收等方面;GPU适用于特定数据库操作加速,如扫描、谓词过滤、大量数据的排序、大表关联、聚集等操作。随着新型硬件成本逐渐降低,充分利用新兴硬件资源提升数据库性能、降低成本,是未来数据库发展的重要方向之一。

云计算技术的不断发展催生出将数据库部署在云上的需求,通过云服务形式提供数据库功能的云数据库应运而生。云与数据库的融合,减少了数据库参数的重复配置,具有快速部署、高扩展性、高可用性、可迁移性、易运维性和资源隔离等特点。

具体有两种形态:

一种是基于云资源部署的传统数据库;

另一种是基于容器化、微服务、Serverless等理念设计的存算分离架构的云原生数据库。云原生数据库能够随时随地从多前端访问,提供云服务的计算节点,并且能够灵活及时调动资源进行扩缩容,助力企业降本增效。未来,数据库将深度结合云原生与分布式特点,帮助用户实现最大限度资源池化、弹性变配、超高并发等能力,更加便捷、低成本实现云上数字化转型与升级。

随着数据上云趋势显著,云数据库面临的风险相较于传统数据库更加多样化、复杂化。如何解决第三方可信问题是云数据库面临的首要安全挑战。近年来以同态加密等密码学为代表的软件解决方案和以可信执行环境(TEE)为代表的硬件方案为数据库安全设计提供许多新思路。密码学方案的核心思路是整个运算过程都是在密文状态,通过基于数学理论的算法来直接对密文数据进行检索与计算。硬件方案的核心思路是将存放于普通环境(REE)的加密数据传递给TEE侧,并在TEE侧完成数据解密和计算任务。未来,此类数据库将围绕算法安全性和性能损耗等问题,逐步突破,进而提供覆盖数据全生命周期的安全保护机制。

数据库管理员或黑客对数据库历史记录的修改是一个经常爆发的问题。区块链具有去中心化、信息不可篡改等特征,区块链数据库能够长期留存有效记录,数据库的所有历史操作均不可更改并能追溯,适用于金融机构、公安等行业的应用场景。区块链数据库由于要容忍节点拜占庭行为而不得不采用代价更高的PBFT、PoW 等共识算法成为落地应用的一大挑战,此外,由于没有统一的协调者,如何保证区块链网络分片时分布式系统的安全性,高并发下的并行控制如何保证ACID也都是设计者不可忽视的问题。未来,提升区块链数据库性能将成为学术界与工业界共同探索的命题。

全球数据库产业生态成熟壮大,在发展过程中,逐渐细分出数据库产品、数据库服务和数据库支撑体系三个细分产业。据中国信通院测算,2020年全球数据库市场规模为671亿美元,其中中国数据库市场规模为35亿美元(约合241亿元人民币),占全球5.2%。预计到2025年,全球数据库市场规模将达到798亿美元。中国的IT总支出将占全球12.3%。我们预计,中国数据库市场在全球的占比将在2025年接近中国IT总支出在全球的占比,中国数据库市场总规模将达到688亿元,市场年复合增长率(CAGR)为23.4%。

据中国信通院统计分析,截止2021年5月底,我国数据库产品提供商共计80家。从企业成立时间看,我国数据库企业成立时间主要集中在1999-2000年和2013-2017年两个时间段,数量分别是12个和38个,依次占比15%和48%。总部分布情况代表企业所在城市对数据库产业的重视与发展程度。

从企业总部的数量看,由于人才规模聚集效应,企业总部通常设在超一线城市,数量最多的前五名是北京、杭州、上海、成都和深圳,分别是43、9、7、3、2个,占企业总数约为54%、11%、9%、4%和3%,除此之外,济南、南京、天津、武汉、广州、贵阳、福州、合肥和乌鲁木齐等直辖市和省会城市平均孵化出1-2个数据库企业。我国数据库企业人员平均人数约为184人,最高为1200人左右规模,最低为10人左右规模。其中21-50人左右规模企业占比最高,数量34个,比例达到43%,人数在51-100人左右规模次之,数量为12个,占比15%,101-200人和201-300人规模并列第三,均为10个,分别占比13%。

我国数据库企业针对数据库领域的平均专利数量(含国内外专利)为38个,最高为500个左右规模,数量为0的企业个数是19个,占比24%。拥有专利数0-4个的企业占比最高为51%,专利数5-10个的企业次之,占比14%,专利数21-50个的企业数量排名第三,占比12%。国内数据库的全部企业技术专利累计千余,仍有较大发展空间。

我国数据库产品数量分布呈现以关系型为主,非关系型及混合型数据库为辅的局面。我国关系型数据库产品多数基于MySQL和PostgreSQL二次开发而来。据中国信通院统计分析,截止2021年6月,我国数据库产品共有135款。其中关系型数据库81个,非关系型数据库有54个,占比分别是60%和40%。关系型数据库中基于开源数据库MySQL和PostgreSQL进行二次开发的个数分别为23和24个,依次占关系型数据库比例为28.40%和29.63%,总计占58.03%。此外我国非关系型数据库产品发展势头良好,逐渐受到国际认可。图数据库产品数量为13款,自研程度较高,自研产品占总数比例为69.23%。我国时序数据库、文档数据库和图数据库也不同程度出现在DB-Engines流行度排名。

据中国信通院统计分析,2020年,中国公有云数据库市场规模为107.68亿元,未来5年,公有云数据库市场年复合增长率将达到36.1%,预计到2025年,中国公有云数据库市场总规模将达到503.31亿元。线上市场格局巨头涌现。中国信通院调研显示,阿里云、华为云和腾讯云作为我国头部云服务商,其在云计算基础设施、应用生态、用户渠道等方面处于领先地位。

2020年,上述三家云服务商公有云数据库总营收约占中国公有云数据库市场份额75.5%。约83%的云上客户倾向选择MySQL、Redis、MongoDB、InfluxDB等开源数据库。2020年数据库传统部署模式市场为133.22亿元,随着市场倾向的变化,传统部署市场替换国外数据库空间巨大。据中国信通院大数据产品能力评测十二批结果显示,国产数据库供给能力较几年前得到大幅提升,产品功能逐渐完善,集群规模与日俱增,性能表现不断攀升,市场竞争程度较为激烈。

近些年,初创企业和巨头陆续投身开源市场,开源已成为数据库产业的共识。2021年1月,DB-Engines官网显示,开源许可证流行度首次超过商业许可证,开源数据库迎来新纪元。针对开源,企业纷纷采取不同的商业模式,期望扩大人才规模及上下游生态影响力,通过运营开源社区快速获得反馈并加快产品开发、提升产品质量,反哺生态伙伴,达到多方共赢目的。

数据库服务产业主体主要由多年来在电信、金融、政务等重要行业提供外包IT运维服务的企业构成,成立时间普遍十年以上,核心成员多为早期提供Oracle、DB2原厂或第三方服务的专家。由于企业数据库技术体系庞杂,需要服务提供商能够提供横向主流数据库产品和纵向多版本技术服务覆盖能力,服务行业技术壁垒较高。此外,由于一般与客户签订一至三年合同,服务提供商对客户系统非常熟悉,容易形成相对稳定的长期合作伙伴关系,市场壁垒较高,新兴初创公司较少,巨头员工数量普遍在千人左右。

数据库服务贯穿企业IT系统的整个生命周期。按照信息系统建设的不同阶段,数据库的服务范围主要覆盖规划设计、实施部署、运维运营三个方面,三个方面又细分多个服务工作内容。由于服务过程缺乏行业规范和指引,导致众多数据库应用企业面临各类选型和实施问题。中国信息通信研究院联合国内数据库厂商和服务商,共同编制并发布了《数据库服务能力成熟度模型》团体标准,期望为国内的数据库服务生态体系提出更全面和专业的评估标准,目前已开展两批评估,参评企业、参评项目和评估等级如上图右侧所示。

服务市场主要集中在金融、电信、政府、制造、交通五个行业。根据中国信通院统计分析,各行业的数据库服务市场份额比例分别为金融22.3%、电信18.9%、政府16.4%、制造13.3%、交通9.6%,这五个行业合计占比超过80%。服务企业向产品企业转型。随着云数据库兴起,数据库运维要求不断提升,服务商除了提供传统的驻场与远程运维类服务外,围绕数据库开发、测试、运维等环节也提供多种类型的数据库周边工具。除此之外,服务商为了拓展业务范围,提升企业利润总额,认识到可以利用自身服务能力积累与经验,对数据库产品供应商形成差异化优势,顺势推出自有数据库产品,进一步加剧了数据库产品市场竞争激烈程度。

学术方面,2016至2020年,美国、中国、印度、德国和英国是全球数据库领域论文产出前五的国家,美国发文量最多,占全球总发文量22.4%,之后依次为中国19.4%,印度7.4% 。从高水平论文数量分析,英国高被引论文数占3.1%,中国占0.3%。从国际合作论文的角度分析,英国、法国、加拿大、西班牙的国际合作论文较多,均超过50%。从VLDB、SIGMOD和ICDE三大顶会的研究方向看,当前以关系型数据库为主,非关系型数据库为辅。我国在全球数据库领域学术影响逐渐提升。高校及企业在ICDE论文贡献占比最高,三年依次为28.19%、37.31%和43.15%,三大会议每年贡献占比平均为22.14%、23.74%和23.81%,数量呈逐年上升趋势,我国数据库学术水平国际影响力不断扩大。

围绕支撑体系,各类组织形成,有助于人才培训体系的构建。

一类是由具备官方背景的研究组织,例如以中国计算机学会(CCF)数据库专业委员会为代表的学术组织和以通信标准化协会大数据技术标准推进委员会(CCSA TC601)为代表的行业组织,用于汇聚国内数据库理论研究头部力量;

第二类是数据库从业人员牵头发起的面向数据库技术爱好者的用户组织,如面向DBA的ACDU、面向MySQL用户的ACMUG、面向PostgreSQL用户的中国开源软件推进联盟PostgreSQL分会等,用于进行各类专题技术交流和讨论;

第三类是由数据库企业组建,针对自身特定产品讨论的官方技术社区,如阿里云开发者社区、华为云openGauss社区、PingCAP AskTUG社区、PostgreSQL中文社区等;第四类是汇聚数据库整体行业信息的第三方技术社区,如ITPUB、墨天轮、DBAplus等,用于搭建领域内线上交流平台。数据库人才培养渠道主要有三个:高校教育、培训机构和企业,各渠道分别具有不同的培训方式和培训目标。

中国信通院统计分析,自2013年至今,数据库企业累计完成约42次融资,根据披露金额显示,融资额度总计约为78.6亿元。自2014年成立的以数据库产品供应与服务提供为主营业务的企业为29个,其中24个企业先后获得单笔数百万元至最高2.7亿美元融资,仅2021年一、二季度期间,获得最新一轮融资的企业数就达12家,2020全年获得融资的企业数量为17家,占比59%,其中不乏高瓴创投、经纬中国、红点创投、红杉资本等知名投资方。由此可见,近些年数据库领域受到资本高度关注和追捧。

金融、电信、政务、制造、互联网五个行业为数据库产品及服务采购份额前五的行业,采购总和占据全部市场份额的80%以上。据中国信通院统计分析,以业务系统数量为计数单位,我国金融行业各类数据库占比为Oracle 55%、DB2 19%、MySQL 13%、PostgreSQL 6%,其他7%。

金融和电信行业在数据库应用方面正在呈现三大趋势,一是大部分存量数据库将向分布式架构升级;二是应用大量非关系型数据库助力创新业务落地;三是产品选型逐渐倾向国产数据库供应商。

政务行业在数据库应用方面正在呈现两大趋势:一是大范围应用空间型、关联型数据库等产品;二是利用各类工具组件,做到数据库应用“平民化”。

工业场景中,80%以上的监测数据都是实时数据,未来工业行业在数据库应用方面将呈现两大趋势,一是应用大量时序数据库,二是逐步向边缘计算发展。

未来互联网行业在数据库应用方面将呈现三大趋势,一是利用内存数据库加速业务效率;二是开源数据库应用更加广泛;三是初创公司利用云数据库促进其快速发展。

随着数据跃升为生产要素,数据重要性进一步提高,我国数据库产业也迎来新一轮变局。从产业角度看,宏观政策利好推动了存量数据库市场上行,我国数据库产业进入蓬勃发展的初期,产品供应商、服务提供商、支撑产业从业者均积极行动,各自发挥技术、渠道、运营等优势,寻求对于自身最优的发展路径;另一方面云基础设施的发展成熟将接近一半的传统数据库市场转移到了线上,云计算企业利用既有基础设施优势,成为最大获益者。

从技术角度看,一方面数据应用的变化倒逼数据库具备更大数据存储容量、更多数据计算模型、更快数据业务响应能力,整体技术发展进入后关系型阶段,架构设计逐渐分布式化、模型构建逐渐场景化;另一方面,人工智能、新型硬件、区块链、密态计算等关联技术的创新正在催生新型数据库设计模式,传统数据库功能边界正被逐渐突破。

 “明者见于无形,智者虑于未萌。”当前我国数据库产业的发展格局,是紧跟时代步伐顺应历史规律、着眼全球提升国际综合竞争力、立足国情推动新旧动能接续转换的外在表现。我们相信,以数据库为代表的新型数据基础设施不断创新发展,对于全面建设社会主义现代化国家的征程,将起到重要的推动作用。

本报告的编写得到了行业内许多专家的支持和帮助,他们分别来自如上图所示的19个企业

具体参与编制的人员名单如上图所示,在此表示由衷的感谢。今天我为大家的解读就到这里,未来信通院云大所将持续跟踪、研究数据库领域各类政策、技术、产业动态,并及时与产业同步,进一步推动产业发展。谢谢大家!


报告联系人

刘思源,liusiyuan@caict.ac.cn

 

关注公众号,并在首页输入关键词“数据库发展研究报告”,下载报告。

DCMM|送您一份数据需求管理秘笈! (基础篇)

DCMM|送您一份数据需求管理秘笈! (进阶篇)


关于我们

     中国通信标准化协会大数据技术标准推进委员会(CCSA TC601,简称:数标委/BDC),旨在凝聚产业链各个环节,识别和解决大数据发展面临的重大问题,开展大数据技术、数据资产管理、数据共享与流通、数据安全等共性基础标准研究,以标准推进工作为纽带,推动大数据与实体经济深度融合。欢迎加入我们的行列!

      入会咨询:张德民   15313961683

                        zhangdemin@caictyds.cn 

文章转载自大数据技术标准推进委员会,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论