暂无图片
暂无图片
4
暂无图片
暂无图片
暂无图片

体验《墨天轮智能巡检》- 惊艳

原创 布衣 2024-10-17
604

背景

  最近看到平台推出智能巡检:《墨天轮智能巡检v2.3发布,适配Oracle PDB并支持12c-23ai》。我们每到节前为了保证过节减少没必要的报警,都需要对数据库环境做巡检,因为每个人的关注点和知识点不同,因此巡检的侧重点各有差异,自己也在尝试做个能达到共识的巡检报告。
  正好看到平台有智能巡检平台,于是搞了套测试环境体验了一把,非常惊艳!

下载及部署

  • 下载并解压采集程序
wget https://oss-emcsprod-public.modb.pro/tools/BTRobot-v2.3.0.zip unzip BTRobot-v2.3.0.zip cd BTRobot-v2.3.0
  • 检查设置环境变量
echo $ORACLE_HOME
--export ORACLE_HOME=/u01/app/oracle/product/11.2.0/db_1
echo $ORACLE_SID
--export ORACLE_SID=BTDB
  • 开始采集(采集7天内的信息,且不采集DG数据)
[oracle@twodb_rac1 BTRobot-v2.3.0]$ perl runMe.pl -e 7 -L 7 -S -t 7 -T 7
--若提示未安装perl,可以使用$ORACLE_HOME/perl/bin/perl runMe.pl

中文说明文档:ReadMe_CN.txt

  • 参数说明
[2] 参数选项
=======================================================================================
    参数  说明                                       默认值
    ---- ------------------------------------------ ------------
     -B  指定 AWR 繁忙时段(范围:0 ~ 23)             0-23
         格式: 8-18 或 9,10,15,16 或 9-12,14-18
     -c  指定字符集编码,支持 GBK 和 UTF8
         格式: O=GBK,A=GBK,L=GBK
              O 为 Oracle 数据库编码
              A 为告警日志编码
              L 为监听日志编码
     -e  指定主机错误日志采集天数(AIX/SunOS/HPUX)    30
     -h  查看采集程序的帮助信息
     -i  指定 ASM 实例的 SID                         NONE
     -L  指定联机日志历史记录的采集天数                 30
     -M  批量采集时,指定 conf 目录中服务器参数文件     DBServers.conf
     -o  指定 ASM 的 Home 目录                       NONE
     -p  指定主采集节点的监听端口号                    12345
     -Q  静默模式,主要配合多服务器批量采集
     -r  指定 AWR 相关数据的采集天数                   8
     -R  指定 AWR 报告的采集数量(按 DB Time 取 Top)  3
     -s  指定 Top Segment 的采集数量                  10
     -S  不采集 DG 数据
     -t  指定告警日志的采集天数                        30
     -T  指定监听日志的采集天数                        30
     -u  指定 Oracle 实例的登录方式                   sys/oracle
     -U  指定 ASM 实例的登录方式                      sys/oracle
     -v  查看采集程序的版本号
     -w  指定每个快照中 Top Event 的采集数量           10
     -z  不自动打包结果集

RAC环境采集

  • -e 采集日志:7天
  • -L 联机日志历史记录:7天
  • -S 不采集 DG 数据
  • -t 告警日志:7天
  • -T 监听日志:7天
  • 执行耗时:2-3分钟
[oracle@twodb_rac1 BTRobot-v2.3.0]$ $ORACLE_HOME/perl/bin/perl runMe.pl -e 7 -L 7 -S -t 7 -T 7
13:28:23           runMe: Running in Local Mode
13:28:23           runMe: Library  
执行日志略.........
[/u01/oracle/11.2.0.3/product/lib32:/u01/oracle/11.2.0.3/product/lib:.]
13:30:18     postProcess: +=====================================================================+
13:30:19     postProcess: Stop Monitor Process [27310]
Collection Tasks all Completed, Result File:
 [ Bethune ] --> data/TWO_20241017132824.zip
  • 数据上传
    image.png
  • 查看报告
    image.png

巡检报告感观

  • 基本信息很简洁,风险模型对数据库的评估优化缺点也很明显。
  • 小瑕疵就是主机名过长或过多显示感观不太好。
    image.png
  • 负载指标显示在图表下面感观会好些。
    image.png
  • 总觉得下面缺点东西,没看太明白
    image.png
  • 鼠标点到对柱状图就会显示相关信息
    image.png
  • 重做日志图表
    image.png
  • 建议汇总-严重程度:这里的诊断就很全面了,尤其在隐含参数的调整和说明。这应该是墨天轮的精华所在。
    image.png
  • 建议汇总-问题类型:看到的问题点都成了我的学习要点。
    image.png

总结

  • 整个收集过程2-3分钟,很轻量,解压即用很方便;
  • 界面显示有些小瑕疵,可能是适配还需要调试;
  • 最亮点的就是后面的《建议汇总》非常全面,应该是墨天轮团队的精华所在,又补充了一些知识点;
  • 将收集信息上传至平台还是有一层顾虑,测试环境的无所谓,但生产环境还是涉及到很多的敏感信息。建议做成可下载的程序支持离线报告分析(可用墨值消费下载,同时也增加了墨值的消费流通);仅供参考

欢迎赞赏支持或留言指正
image.png

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论