暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

使用OCI日志分析配合ODU进行快速故障排查

甲骨文云技术 2021-05-07
2326

当系统遇到问题时,我们往往要对日志进行分析,但面对海量日志往往让我们无从下手。幸好,我们有Oracle管理云(OMC)帮助我们进行快速分析。OMC为大家提供强大的监控与诊断功能,但有时我们只想对日志进行一次性的分析,是否有更快捷的方式能够让我们以最短的时间对各种系统日志做出快速、精准的分析呢?经常使用OCI的朋友会发现,在登录OCI之后,在菜单栏当中有一个 Logging Analytics链接,使用这项带有图像化界面向导的服务配合ODU(On-Demand Upload)就可以快速定位问题根源,从而迅速解决问题了。

ODU与我们的众多服务一样,支持REST APIs,但使用带有图形界面的向导,无疑是一种最便捷的操作方式。在新版的OCI console当中,您可以在页面上部的搜索栏中输入logging,或者如下图所示在导航菜单中选择Logging Analytics

需要注意的是,如果是第一次使用,系统会提示要给出授权提示,按照说明进行授权即可,您也可以关注我们的公众号,发送ODU获取详细操作步骤。

在今天的例子中,我们通过一个真实的案例为大家讲解OCI日志分析及ODU的使用。系统管理员发现一个节点在重启之后无法加入RAC集群文件系统,然后他将日志上传到OCI日志分析中,并进行快速的故障排查。同时,通过这个工具,系统管理员也可以了解系统中是否有其他组件需要优化以提高系统的整体性能。

首先我们需要创建一个日志组用于保存日志。

接下来上传日志即可。

在上传日志的时候,选择刚刚创建的日志组。接下来选择刚刚上传的日志,并设定日志类型,如下图所示。通过下拉式菜单可以看到,OCI中的日志分析支持非常多的日志类型,从操作系统到数据库、中间件等等。常见的系统日志都可以在其中找到对应。

接下来检查刚才的设定,确定没有问题之后点击上传按钮。

接下来可以使用日志探索器对日志进行探索,也可以在界面中将这些日志进行删除。

在日志探索器当中可以看到基于时间戳的日志分析。

在这个例子中,系统管理员使用Cluster Analysis来帮助识别潜在的问题。

在分析结果中,系统管理员发现有“FATAL: Module ocfs2_stackglue not found”。

这表明在server42上,引导进程是在没有ocfs2模块的内核下启动的。用正确的内核重新启动节点很快就解决了这个问题。

总结

通过OCI日志分析,可以快速确定根本原因,从而迅速解决问题。为了防止该事件再次出现,可以使用Logging Analytics不断对动态日志进行监控,从而将被动解决问题变为主动发现并将问题在出现之前进行解决,从而保证系统稳定运行。

编辑:殷海英

文章转载自甲骨文云技术,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论