暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

SRE(网站可靠性工程)必备的7种工具

银信科技 2022-08-12
2098


点击蓝字 关注我们



SRE(网站可靠性工程师)软件工程师和系统管理员的结合,需要掌握的主要技能:算法,数据结构,编程能力,网络编程,分布式系统,可扩展架构,故障排除。


做SRE的一个关键就是在应用的整个生命周期内都尽可能的最大化它的可靠性和工作效能。可能下面文章中我们提到的好多工具其他的DevOps工程师也在用,但SRE工程师对于同样的工具会有不一样的部署方式。




基础设施即代码(IaC)

基础设施即代码IAC,例如:Terraform或者Cloudformations在业内都普遍很受欢迎,对于SRE,IAC更是提高可靠性的关键工具之一。原因基于IAC的配置方法可以在环境之间进行一致的配置。这种一致性就会带来可靠性,降低了意外配置的风险。



Kubernetes(K8S)

如果您正在部署基于微服务的应用程序,那么你必定要学学K8S。正确的配置和管理时让Kubernetes可以使应用程序在服务器群中可靠地运行,从而降低需要响应的可靠性问题的风险。



混乱工程

对系统做实验去发现那些可能会被忽略的故障或缺陷,帮助我们主动地解决可靠性问题。常见的工具如:Gremlin和Chaos Monkey。


可观察性工具

每个SRE都需要掌握可观察性平台,这些平台可以自动收集,分析和报告由应用程序和基础架构生成的各种数据源的过程。


源代码管理工具

做SRE不主要负责写源代码,但要接受诸如GITOPS之类的实践,以帮助标准化应用程序部署和管理操作。所以SRE也应该学习如何使用源代码管理工具(例如Git或GitHub)等源代码管理工具。


自动化事件响应工具

尽管SRE一直在努力投资于测试、监控和优化但目前来看,当问题最终出现时,我们还是需要专业的工具。例如:Rootly 这样的自动化事件响应平台。而且响应平台后续还帮助SRE进行事后分析和跟踪行动项目,以帮助我们从事件中学习。


后期数据追踪工具

通常事件解决后,SRE需要提供一个后续报告,去详细描述究竟是哪一个环节除了问题,团队今后要如何防止同样的问题再次发生。目前市场内相关的工具不多,但推荐一个Morgue最起码可以帮助大家简化这个报告过程。



总结

SRE需要借助各种工具才能更有效率地完成工作,文中仅仅提到了少量你可能会接触到的工具,更多的SRE工具欢迎您在评论区留言。




微信号|Trustfar300231

视频号|银信科技300231


求分享

求点赞

求在看

文章转载自银信科技,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论