暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
基于日志数据的分布式软件系统故障诊断综述-贾统,李影,吴中海.pdf
88
24页
1次
2022-05-24
免费下载
软件学报 ISSN 1000-9825, CODEN RUXUEW
Journal of Software, [doi: 10.13328/j.cnki.jos.006045]
©国科学院软件研究所版权所.
基于志数据的分布式软
系统故障诊断术综
1
,
2
,
中海
2
1
(京大 信息科学技术学院, 海淀 100871)
2
(京大学软件工程国家工研究中心, 海淀
100871
通讯作者: , E-mail:
li.ying@pku.edu.cn
: 于日志数
故障诊断通过智能手段析系统运
常、诊断系统故障.随着智能运维(
Artificial Intelligence for IT Operations
界和工业界的研究热点.本文首先总结了基于日
数据
特征提取、基于日志数据的异常检测、基于日志数据
的故障预测和基于日志
对近年来国内外相关工作进行了深入地分析,最后
以本文提出的研究框架为指导总结
可能面临的挑战进行了展望.
关键词: 日志数据;异常检测;故障预测;
故障根因诊断
图法类号: TP311
State-of-the-Art Survey of Log-B
ased Failure Diagnosis
JIA Tong
1
, LI Ying
2
, WU Zhong-Hai
2
1
(School of Electronics Engineering and Computer Science,
Peking
2
(
National Engineering Research Center For Software Engineering
Abstract: Log-based failure
diagnosis refers to intelligent analysis of system runtime logs to automatically discover system anomalies
and diagnose system failures. Today, this technology is one of the key technologies of Intelligent Intel
which has become a research hotspot in both
academia and industry. This paper first analyzes the
summarizes the research framework of fault diagnosis based on log
extraction technology, anomaly detection technology, failure
prediction technology and fault diagnosis technology
systematic review of the achievements of scholars at h
ome and abroad in these four key t
summarize the different technologies in this field
based on the research framework
research.
Key words: log analysis; anomaly detection; failure prediction;
布式不仅广互联,
用于
应用亿,
的软质量
会带巨大损失.数据公司
International Data Corporation
小时服务机平均会成约 10 美元的损.
高可性和可靠性需.
布式规模
及运
诊断,分析.,
式软
统组件之有可故障;
件系逻辑
基金项目: 广东省重点领域研发计划
(No. 2020B010164003);
Foundation item: Key R&D Project of Guangdong Province (No. 2020B010164003);
收稿时间2019-10-17; 修改时间2020-02-07;
采用时间
E-mail: jos@iscas.ac.cn
http://www.jos.org.cn
Tel: +86-10-62562563
系统故障诊断术综
100871
)
故障诊断通过智能手段析系统运
生的日志据以动化地发系统
Artificial Intelligence for IT Operations
,AIOps)的快速发展,该技术正成为学术
数据
的分布式软件系统故障诊断研究框,后就日志处理
的故障预测和基于日志
数据分析的故障根因诊断等关键技术
以本文提出的研究框架为指导总结
相关研究工,并对未来研
故障根因诊断
ased Failure Diagnosis
Peking
University, Beijing 100871, China)
National Engineering Research Center For Software Engineering
(Peking University), Beijing 100871, China)
diagnosis refers to intelligent analysis of system runtime logs to automatically discover system anomalies
and diagnose system failures. Today, this technology is one of the key technologies of Intelligent Intel
ligence for IT Operations (AIOps),
academia and industry. This paper first analyzes the
log-based failure diagnosis process, and
summarizes the research framework of fault diagnosis based on log
s and four key technologies in the field: log processing and feature
prediction technology and fault diagnosis technology
. Next, we conduct a
ome and abroad in these four key t
echnical fields in recent years.At last, we
based on the research framework
and look fowared the possible challenges for future
fault diagnosis
用于
金融军事.
的软质量
International Data Corporation
,IDC 1000 家企的评估报[1],
,模分式软系统需要 7*24 断服,具有
及运
,导致频繁[2-4],生后
式软
.统组,
件系逻辑
,系统求路任何
(No. 2020B010164003);
Foundation item: Key R&D Project of Guangdong Province (No. 2020B010164003);
采用时间
2020-03-09; jos 线出版时: 2020-04-21
2
Journal of Software 软件学报
,,.,
获取因素,调试无法用户输入出文,重现实际环境同的配置,使基
错误现和的故诊断实施.再次,监控力有,收集方位粒度系统数据
.,,.
,.,,
并不,人员困难.,断效,统故,
定位障根成为保障规模布式件系统的可用和可性的关键.
随着工智Artificial Intelligence,AI发展,运维Artificial Intelligence for IT Operations,AIOps
的概[5] 2016 Gartner 次提,通过机器(Machine Learning)等算分析自于多种维工
和设的大模数,动发现并时响系统出现问题,提升信息Information Technology,IT
维能和自化程[6]. AIOps 趋势,以多运维据为驱动,器学习等法为心的智能故障
根因,广.源运括系数据录数单、新文
.历史录数,系统时数能够系统动态征及发生时的下文,未知
障具探测.运行要包和监,是程人员
程序文本,以记序执
;控数据指统运状态下的源占情况,中央理器Central Processing Unit,CPU使用率内存使
率、、进及进使用.日志数据次不,者关度的
状态的程,则关态和用状程状状态.对故
诊断务而,志数相较监控据更优势,现为
1支持细粒的故因诊.系统的故断往只能到某资源出现
异常,而基日志据的故障断技可以定位特定出错志及事件.
2能够持对程序行逻的跟,跨组件、服务捕捉序执行异和性异常.一条求在系统
部的通常个组序模,一个模块出日,些日在一
度上映该的执轨迹.通过些日进行和建,刻画杂的执行,而诊故障
组件故障序执行位.
3、能,.据的障症,
而基日志据的故障断则以跟每一个请实例,异常,刻画常请执行路径的相细节.
,志数断对分布障诊,升系和可
分重.
文第 1 对基志数大规布式统故断方研究进行,结归其中
的四关键术(日志理与征提技术、基日志据的常检测技、基日志据的故障测技
和基日志据的故障因诊技术. 2 已有的日处理特征提取术进总结. 3 已有
于日数据异常检测术进总结. 4 对基于日数据故障预测术进总结. 5 节对于日
据的障根诊断技术行分.后在 6 节以文提的研究框为指总结分析关研工作,对未
来值关注研究方向行初探讨.
1 概述
1.1 分布软件统日
, OpenStack
Nova-compute,Neutron ,Hadoop 个组件( Resource manager, Node manager输出日志.日志
括操系统,日志,备日以及应用.不同布式统由能特的不致日
志序和日内容,普遍和关的日特征是以Request Openstack 一次拟机启动
of 24
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜