一、数据库智能化运维的需求十分强劲
企业业务的快速增长带动了数据增长。据估算,中国企业的数据规模每年增长约2-3倍,数据架构也变得日益庞大,数据库的发展随之加速,催生了企业对数据库服务的旺盛需求。
自国家推动信创产业以来,国产数据库加速发展,数据库种类越来越多,企业的数据库运维也变得非常复杂。因为国产、开源数据库短时间内还无法形成完善的服务生态,缺专业技术人才,缺运维工具,没有运维知识的积累,没有足够数量的第三方服务商等等。没有完善的服务生态,意味着客户的系统将面临巨大的风险,要想解决以上现实情况,必须借助于智能化运维相关技术的发展。
随着企业数字化转型,企业CIO将面临更复杂的环境及更高的目标。传统人工运维的方式无法满足新的需求。一方面运维人员的成本逐年提升,另一方面国产、开源数据库种类繁多,使得企业运维难度加大。发展智能化的运维工具,可以在运维服务的各个方面,弥补因服务生态不足带来的不便,满足企业在数据库运维方面的迫切需求。
二、数据库智能化运维技术路线多样化选择
数据库智能化运维的基础是数据与算法。依托运维大数据基础与深度学习算法作为基础,构建数据库运维领域的智能化解决方案。
图1:数据库运维领域的智能化解决方案
在总体技术路线上,我国的数据库智能化运维产品大多数采用了以数据+算法的实现路径,利用历史数据与实时数据,依托数据库可观测性能力,结合企业ITSM管理流程,构建智能化运维体系。不过在技术实现上,有三种不同的技术路线。
第一种是以全链路监控为核心的智能化运维,依托NPM/APM对业务系统全链路的数据采集,结合异常检测算法实现对数据库问题的智能化发现,从而实现异常提前预警。其优点是可以较为全面的观察到链路上每个环节的运行效率,从而可以比较快速的发现数据库存在了问题;其缺点是不知道怎么解决问题,较难深入的对数据库的问题进行下钻,根因溯源能力较弱,只能把问题直接转给DBA人工排查。采用这种技术路线的产品相对比较成熟,产品化程度比较高,在金融、制造业等有大量应用,主要厂商有天旦、听云、蓝海讯通等APM/NPM厂家。此类产品形成了专业化的智能化发现能力,产品化程度高,虽然在下钻分析能力上存在缺陷,但在特定应用场景下效果不错。
第二种是以智能运维算法为核心,利用企业在运维大数据的历史积累,进行异常检测分析,通过分析算法发现数据库存在的问题。其优点是利用算法的能力可能发现运维专家都忽视的问题,发现与解决一些以往专家都无法解决的问题。其缺点是客户历史积累的运维大数据比较零散,而且大多采用客户现有的各种监控软件做采集器采集数据,数据质量不高,因此效率低。这种技术路线是希望从理论出发走向实践,但这条路线能不能走通,还在积极探索中。但由于选择这种路线的公司,均可以提供较完善的算法库,希望与客户一起用历史运维大数据,验证算法库,实际效果并不理想,很难形成成熟的即用产品,准确的讲是在做大数据定制软件开发的集成项目。以智能运维算法为核心的企业,比如必示、擎创等采用此技术路线。此技术路线基于大数据软件定制开发,产品化程度较低,实施成本较高。对于大型企业的特定需求支持程度较好,适合于较为大型的个性化需求。
第三种是以运维知识、专家经验和智能模型为核心的技术路线。首先将运维专家的专业知识梳理出来,形成规则表达式和运维知识图谱,作为数据库智能化运维工具的基础。再结合异常检测算法等大数据分析与深度学习算法,构建数据自动化处理框架。最终结合专家知识与智能分析的双引擎,实现数据库智能化运维辅助。该方法的优点是针对具体的数据库的综合分析能力较强,问题溯源较容易实现,缺点是产品研发过程中需要高水平DBA专家参与,知识梳理的工作量较大,同时也需要大量的实战案例作为基础,单一企业较难实施落地。这种技术路线经历了从实践、认识、再实践、再认识,循环往复的良性过程,产品化程度高,智能分析功能强大。南京基石数据、云和恩墨等企业采用此技术路线。此技术路线基于运维知识图谱,产品化程度高,不过需要研发单位有大量的数据库运维专家参与研发。
从数据库智能化运维的需求以及技术实现方式上看,简单的采用某种方法都存在较大缺陷,很难达到预定目标。对于业务流程十分复杂的企业的关键业务来说,使用第一种技术路线可以构建起全面的监控预警能力,产品成熟,有其特定的应用场景;使用第二种技术路线可以充分利用企业的运维大数据与运维中台的能力实现更为复杂的分析,发现一些传统方法无法发现的系统隐患,不过这种技术路线投入较大,难以形成产品,不太适合用于日常监控。第三种技术路线比较容易形成标准化的产品,不过在研发过程中需要有十分专业的DBA专家参与,同时必须不断积累与分析运维案例,才能不断提升运维知识图谱的能力。
三、数据库智能化运维技术落地依然面临挑战
2022年是数据库智能化运维的启动元年,大量的企业已经开始着手建立智能化运维工具或者平台,利用智能化手段提升数据库运维的效率和能力。不过数据库智能化运维在落地上还存在很多技术门槛,目前大家采用的技术路线都还处于尝试阶段,技术成熟度也还处于较为初级的阶段。
数据库智能化运维需要解决几个重要的问题,其中最重要的一个是工具开箱即用的问题与企业个性化业务特征之间的矛盾问题。目前采用的智能化运维基础基于数据加算法,而数据需要在企业侧逐步完善,算法也涉及大量的调参问题,这些都不是普通企业的DBA能够完全掌握的。这导致了智能化运维工具产品化程度较低,甚至部分是以定制开发项目的形式完成,加大了智能化运维工具的建设成本。
以知识图谱为核心建设数据库智能化运维工具比较容易产出标准化的产品,但是知识图谱建设成本较高,需要高水平的数据库专家参与,同时不同企业之间存在的技术壁垒,也限制了不同厂商之间的技术共享,增加了运维知识图谱建设的成本。
四、依托社区协作,加快知识积累
单一企业建设运维知识图谱的成本较高,也容易造成重复建设,因此需要借助更为高效的平台,以社区运营的模式来加速知识图谱建设,加速知识积累的速度,降低知识积累的成本。目前“DBAIOPS社区”已经推出了社区免费版的数据库智能化运维工具,希望通过社区协作,更广泛的获得运维案例数据,并依托社区专家的能力来加速知识图谱的建设。
