暂无图片
暂无图片
10
暂无图片
暂无图片
暂无图片

数据库管理-第296期 维护的事与价值(20250227)

原创 胖头鱼的鱼缸 2025-02-27
322

数据库管理296期 2025-02-27

数据库管理-第296期 维护的事与价值(20250227)

作者:胖头鱼的鱼缸(尹海文) Oracle ACE Pro: Database PostgreSQL ACE Partner 10年数据库行业经验 拥有OCM 11g/12c/19c、MySQL 8.0 OCP、Exadata、CDP等认证 墨天轮MVP,ITPUB认证专家 圈内拥有“总监”称号,非著名社恐(社交恐怖分子) 公众号:胖头鱼的鱼缸 CSDN:胖头鱼的鱼缸(尹海文) 墨天轮:胖头鱼的鱼缸 ITPUB:yhw1809。 除授权转载并标明出处外,均为“非法”抄袭

胖头鱼的鱼缸_01.png
又好几天没写文章了,有两个原因,第一是公众号接入了DeepSeek-R1,更新了一篇其他地方没有同步,有兴趣的可以去公众号看看;第二就是本周大概率感染诺如了(当然也可能是单纯着凉了),拉了3天,其中吐了1天,发烧1天,总共瘦了6斤,还是希望大家最近注意卫生,特别是上公共厕所的时候。
回归到本期题目,作为愤青(但据说35应该是算中年了,但至少我外表还年轻),还是想聊聊最近关于维护工作的一些感想。

1 日常工作无价值

维护的日常工作中最重要的其实就是巡检了,很多人会认为巡检无外乎就是看看状态、瞅瞅性能、截截图留个记录就完事了,机械简单重复,可以通过自动化工具即可实现记录与告警,这样的工作是毫无价值的。
当然如果说日常工作的流程本身来说,看起来确实很简单,但是要说其发挥的价值却是不可忽视的。首先一点就是是否触发阈值和是否正常运行是两码事,众所周知,当前的告警主要还是通过预设阈值实现的(即便有AI加持),阈值触发与否和运行状态尤其是性能的状态是否正常是真不一定的,比如下面一些情况:

  • 因统计信息原因造成一条SQL变慢,但未影响到整体性能表现。这种情况除了数据库监控以外还需要类似于APM的工具来辅助。
  • 批量入库更新带来的大量行锁/会话锁,这种情况会触发告警。但是对于数据库和业务来说,对于该表的其余读操作毫无影响。
  • 一些服务、组件甚至是硬件异常不会影响上层软件运行也不会触发告警。但这实实在在会留下隐患,如不及时处理可能会带来严重的后果。

当然如果只是单纯机械的对巡检进行记录,确实价值不大,在我团队中也有因过于机械导致忽略隐患的现象,这也从另一个角度说明,作为维护日常工作中最重要的巡检,其最大的价值是发现隐患并提前消除。

2 如何监控

最近,无奈,又听到了,所有监控都基于脚本(主要是shell脚本)的间隔执行是比较好的方案,但是也会存在以下一些问题:

  • 脚本需要输入远程主机的登录账号和密码,无法实现批量执行
  • 如需要批量免密执行需要引入第三方软件,且需配置被管理节点与管理节点间的ssh互信的同时还涉及到shell脚本的适应性改造,同时带来通信安全性问题
  • shell脚本执行本身就会消耗一定的系统资源,不可能在被管理节点实现秒级的循环执行,实时性较低,而且不排除循环间隔之间出现问题的可能性,不利于及时发现问题,监控数据非持续,无观测性
  • 脚本批量执行的性能以及操作系统与网络占用问题

其余内容我就直接翻出之前写过的内容数据库管理-第242期 总监要的数据库监控(20240916)

3 越忙越好

维护的目的是求稳,一个稳定的数据库(或系统)是重中之重。以前一个客户跟我说过“你还是闲一点好,你要是忙了,整个中心都会鸡犬不宁”,一般来说当维护人员开始手忙脚乱的时候,大概率是已经出了比较大的问题了,这时的影响范围往往都比较大了。优秀的维护人员会尽可能提前解决隐患,减少出现问题的概率或尽可能将问题扼杀在摇篮之中,减少甚至消除其影响。而不是每天忙到飞起来做一些看似花里胡哨的无用功。
对应越忙越好,其实还有一个越多越好,这里主要是做事的人越多越好,其实这个更好说,可以去了解下市场上各个级别工程师的价格和能力即可,不多说了。

总结

有感而发。
老规矩,不知道写了些啥。

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

文章被以下合辑收录

评论