排行
数据库百科
核心案例
行业报告
月度解读
大事记
产业图谱
中国数据库
向量数据库
时序数据库
实时数据库
搜索引擎
空间数据库
图数据库
数据仓库
大调查
2021年报告
2022年报告
年度数据库
2020年openGauss
2021年TiDB
2022年PolarDB
2023年OceanBase
首页
资讯
活动
大会
学习
课程中心
推荐优质内容、热门课程
学习路径
预设学习计划、达成学习目标
知识图谱
综合了解技术体系知识点
课程库
快速筛选、搜索相关课程
视频学习
专业视频分享技术知识
电子文档
快速搜索阅览技术文档
文档
问答
服务
智能助手小墨
关于数据库相关的问题,您都可以问我
数据库巡检平台
脚本采集百余项,在线智能分析总结
SQLRUN
在线数据库即时SQL运行平台
数据库实训平台
实操环境、开箱即用、一键连接
数据库管理服务
汇聚顶级数据库专家,具备多数据库运维能力
数据库百科
核心案例
行业报告
月度解读
大事记
产业图谱
我的订单
登录后可立即获得以下权益
免费培训课程
收藏优质文章
疑难问题解答
下载专业文档
签到免费抽奖
提升成长等级
立即登录
登录
注册
登录
注册
首页
资讯
活动
大会
课程
文档
排行
问答
我的订单
首页
专家团队
智能助手
在线工具
SQLRUN
在线数据库即时SQL运行平台
数据库在线实训平台
实操环境、开箱即用、一键连接
AWR分析
上传AWR报告,查看分析结果
SQL格式化
快速格式化绝大多数SQL语句
SQL审核
审核编写规范,提升执行效率
PLSQL解密
解密超4000字符的PL/SQL语句
OraC函数
查询Oracle C 函数的详细描述
智能助手小墨
关于数据库相关的问题,您都可以问我
精选案例
新闻资讯
云市场
登录后可立即获得以下权益
免费培训课程
收藏优质文章
疑难问题解答
下载专业文档
签到免费抽奖
提升成长等级
立即登录
登录
注册
登录
注册
首页
专家团队
智能助手
精选案例
新闻资讯
云市场
微信扫码
复制链接
新浪微博
分享数说
采集到收藏夹
分享到数说
首页
/
智能运维中诊断路径的积累方法
智能运维中诊断路径的积累方法
白鳝的洞穴
2021-02-24
1141
智能运维中诊断路径是用于故障分析、预警、溯源的运维知识,对于智能运维系统能够真正落地具有十分重要的作用。目前的绝大多数智能运维系统中这方面的积累都是较为有限的,甚至一定数量的智能运维系统中运维经验基本为0,仅仅存在一些通过数据分析形成的模型,而这些模型往往过于简单而无法在实际运维工作之中发挥作用。
诊断路径的积累有三种最为常见的方法,第一种是专家梳理,通过专家的梳理,可以把以前只由专家掌握的运维经验数字化,形成可以自动化分析的能力;第二种是通过智能分析算法,发现一些可能专家也不一定能够发现的隐含路径,实际上这项工作如果依靠第一种方法形成的知识库,再去做相关的分析,会取得事半功倍的效果,如果仅仅依靠纯粹的机器学习或者深度学习,往往效果不佳;第三种方法是大家最应该进行的,但是往往又是被大家忽视的方法,那就是通过历史的案例或者运维工作中的案例来发现运维经验。
第一种方法比较直观,专家根据其多年运维工作的经验进行总结,然后将总结后的知识点导入图数据库。比如下面就是一个专家梳理的Oracle latch hit过低的诊断路径。
第二种方法听起来似乎比较简单,可以不依托专家,仅仅通过异常检测等手段发现新的诊断路径。不过事实上不是这样的,采用第二种方法更要依赖于专家的参与。数据的标注需要专家,分析结果的确认与提升需要专家。比如说我们通过深度学习发现了一个模型,这个模型实际上只能告诉我们某个事件可能与某个现象有关,但是里面的深层次关系与分析路径往往是不明晰的,因为深度学习无法明确的告知我们明确的故障传播路径。而专家由于经历的案例有限,往往也存在一定的局限性,可能以前并无这方面的思考与经验。通过深度学习获得的经验交给专家后,专家可以根据他所掌握的运维知识与经验对此进行分析,从而从理论上找到人工智能发现的知识的内在原理,从而可以发现新的故障传播路径,并根据这些发现形成新的诊断路径,完善补充知识图谱。
第三种方法实际上是十分有价值的,可以依靠我们以往发生的故障与运维经验梳理出新的诊断路径。但是不幸的是,第三种访问依然需要专家的介入。作为今天重点介绍的方法,我们用一个十多年前的案例来做一个演示。
这是一个几乎没有负载的小系统,从load profile上看,负载几乎微乎其微。不过从等待事件上看,这个系统存在比较多的问题:
前台等待事件:
后台等待事件:
可以看出,写IO相关的等待事件都异乎寻常的高。而系统负载很低,后端的存储系统也没有问题。
而在同一个时段,正常的时候,负载情况是这样的:
当这个数据库启动了一个月后,就开始处于不正常状态,此时如果重启数据库或者重启服务器,这个系统就又恢复正常了。说到这里,有些老DBA可能就已经猜到了这个问题的原因了。在当时10.2.0.4的数据库里,跑在LINUX 5.X版本上,如果没有启用HUGEPAGE,就会出现类似的情况。这种情况出现的时候,SYS CPU的使用率会达到USER CPU的80%以上,甚至高于USER CPU。
针对这个案例,经过专家梳理,就可以形成一个新的运维经验,同时也可以形成新的运维经验的诊断路径。新的运维经验的触发条件可以被描述为:“UPTIME > $1 AND ((LOG FILE PARALLEL WRITE >$2) OR (DB FILE PARALLEL WRITE >$3)) AND (SYS CPU > (USER CPU*$4)) AND (HUGEPAGE_USED=FALSE)AND (LOAD_SCORE<$5)”。
可能有朋友看到这里就有些疑惑了,“AIOPS”,从老白你今天所说的AIOPS里看不出任何AI的成分来。这句话说的有点对,任何强大的AIOPS背后都离不开运维专家艰辛的劳动。AIOPS能力的起点起于人类专家的经验,不过随着知识图谱的积累,人类专家的经验会以人类无法企及的规模进行积累,并且在实际运维工作中不断通过自动化的推理计算发挥作用。无论是人类专家梳理出来的知识,还是通过专家梳理案例获得的知识,还是通过机器学习发现的新知识构建的越来越丰富的知识体系,在AI算法的加持下,就会输出比人类专家更为强大的分析能力,我想AIOPS超越人类专家的能力,也指日可待了。
数据库
文章转载自
白鳝的洞穴
,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。
评论
领墨值
有奖问卷
意见反馈
客服小墨