暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

系统上云之监控解决方案探索

IT那活儿 2022-10-24
561

点击上方“IT那活儿”公众号,关注后了解更多内容,不管IT什么活儿,干就完了!!!

随着互联网的发展,新技术新领域层出不穷。万物互联的时代还未真正到来,但互联网已经渗透到世界的各个角落,人们的生活和工作都高度依赖IT的各种纷繁复杂的系统,作为互联网运维的一份子,应当主动思考,整合,创新,实践新型技术,以保证系统安全,快速,稳定运行为己任,以适应现在互联网发展的要求。
由于系统越来越复杂,接口也越来越多,各种服务器,操作系统,中间件,数据库,等一系列软硬件IT产品层出不穷,令人眼花缭乱,特别是近些年,各行各业的各种系统纷纷上云,对传统的系统进行拆分,微服务化,更增加了系统的复杂程度。

作为运维人员,为保证系统安全快速稳定运行,掌控系统各个组件,接口的运行状态以及相关性能,效能数据,至关重要。那么建立一个全面,实时,准确,可视化的全栈监控管理平台,对于一个高质量的运维团队来说,是一道必做题

以下是我自己对一个全栈监控管理平台的构想:
一:监
监控层级分为5层:IAAS,PAAS,SAAS,CAAS,  DAAS
IAAS即基础设施层,包含服务器,存储,交换机,防火墙,WAF等一些硬件设备和相关网络;
PAAS层指平台层,也叫中间层,主要负责提供各种开发和分发应用的解决方案,比如虚拟服务器和操作系统。如阿里云提供的虚拟机,数据库等;
SAAS即应用层,直接提供服务的层级,比如百度,google,各种app等。
最后两个是我的理解构想出来的,CAAS和DAAS 分别值的是缓存层,和数据层,即cache as a service 和 data as a service。
如下图所示:5层
在每一层,都有对应的监控agent以及数据处理服务,告警服务等,这些监控比较完善了,但是还存在一个问题,就是应用系统的各个监控项,并没有实时的串联起来,一旦应用系统出现业务故障,排查方法依然与以往一样,哪儿疼看哪儿。面对如今的云环境,去用传统的方法来做troubleshooting,如果面对大型综合类应用,简直如大海捞针,是不可取的。
所以,我们需要一个新型的监控管理平台,能够从各个层面,系统的各个关键API,对系统自上而下的进行可视化监控。
系统展示示例构想:
比如这是某个系统的告警级联示意图:

通过各个层级及接口的运行状态,效能数据,能够实时,准确的监控系统的健康状态。

二:管理
通过构建的全栈监控平台,可以实时监控系统状态,一旦出现故障,能够及时发现故障点,但我们最终是要去解决故障,因此还需要与自动化运维平台相结合,自动化运维平台可以远程操控服务,主机,各种组件。
如上示例图,可视化管理平台通过调用自动化运维平台的管理API,可以直接对主机,组件,服务等进行操作管理,一旦系统故障定位到某个服务节点,可以直接重启该服务,快速恢复故障,将业务影响时间降到最低。
IT服务行业日新月异,各种开源产品层出不穷,系统也越发复杂,我们需要打破旧思维,创造新的运维方法,运维观念,才能适应现在IT服务的要求,为各行各业保驾护航。


本文作者:李 震(上海新炬王翦团队)

本文来源:“IT那活儿”公众号

文章转载自IT那活儿,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论