干运维的你得具备这些能力

运维散兵 2021-05-13

2507

点击上方蓝字，关注我哦：）

这是在滴滴云第十期技术沙龙上的分享的部分内容，同步一份到公众号，以备查阅，也是与各位同仁共同探讨，碰撞思维火花：）

运维的使命

在讨论能力之前，先聊聊运维的使命，也就是公司成立一个运维团队的初衷，对运维团队的一个期许。一切都将围绕这点展开。

当然，其实也是老生常谈了，业界对运维的使命有九字真言：安全、稳定、高效、低成本，有些公司会成立单独的安全部门，运维团队配合安全同事即可，滴滴就是这样的，这里，我们主要关注后面三个方面：稳定、高效、低成本。

这三方面，最重点要关注的是稳定，这里的稳定是指线上生产环境的服务稳定性，运维团队，通常是服务稳定性的第一责任人，线上出现问题，第一个冲上去的人，所以运维团队对线上环境，非常熟悉，是线上环境的直接管理人，于是，运维应具备的能力，就呼之欲出了...

运维能力模型

从上文可以看出，运维团队要能管理线上生产环境，要能建设稳定性、成本体系，过程中要能建立平台提升人效，所以总结起来，是如下五点：

生产环境管理

运维人员作为对生产环境最熟悉的人，具有管理维护的职责，生产环境相关的所有事情都需要运维知悉。

源于此，导致运维成了技术体系的粘合剂，经常与各方沟通，比如我们除了与研发人员沟通，还要经常与基础网络、系统硬件的同事沟通，与安全工程师沟通，与内核同事沟通，与资产管理员沟通。要能沟通，你就得对相关技术领域有了解，所以运维人员常自嘲，我们是半个研发、半个网络、半个系统、半个安全...

源于此，让运维去推进一些横向工作也显得理所当然，比如机房迁移、服务上云、整站交付等... 由运维代表业务来协调各方，整体推进，起到了一个类似项目管理的角色，当然，这个事情也可以由专门的PMO来做，运维从技术上把关整个流程即可。

流程规范制定

要能管理生产环境，那就得为生产环境制定一些标准规范，对生产环境的任何变更，都得遵从一定的流程，要不就乱了...

比如生产环境的操作系统规范、软件安装规范、进程启停规范、日志规范等，服务交由运维来管理维护的准入规范，线上变更操作的灰度制度、通告制度、军规红线等。

运维可谓是最关心稳定性的人，需要主导建立故障发生之后的响应协同机制、止损原则和流程、故障复盘机制、定级定责标准。

另外就是监控、预案、备份、巡检的规范制度和指导原则，如果没有这么一套方法论，新业务接手运维的时候也是无从下手。

最后是设备全生命周期管理的流程，这个一般是应用运维、系统运维、资产管理员共同来搞，简单但很重要，梳理不好，遗留在犄角旮旯的设备就会越来越多，浪费大量成本。

稳定性体系建设

从故障全生命周期预防、发现、定位、止损、复盘五个环节着手，优化每个环节；减少故障，降低止损时间，也就意味着提升稳定性。

从达成目标的通用做事方法上来说，要建好稳定性体系，需要先制定好稳定性体系的标准规范，梳理落地手段，最后建立评价体系，来量化稳定性建设的成果。

另外最重要的，稳定性是个横向工作，需要各方支持，所以需要运维的老板去搞定各方向决策链上的人，让大家都支持配合你。

下面是散兵总结的一个稳定性体系的全景图，供参考，转载请注明出处：）

成本体系建设

成本体系主要分五个方面：设备成本、带宽成本、机柜成本、人力成本、电力成本，电力成本这个主要跟IDC建设相关，非运维人员关注的重点，其实机柜这个也是主要由系统部操心，业务运维会关注少一些，直接放一张之前总结的PPT：

基础设施平台建设

基础设施平台，很多公司会成立基础架构部，与运维部的职责会有部分小重叠，如何分工呢，一般运维部会负责涉及稳定性的平台，比如：风险量化系统、监控告警系统、故障定位平台、预案管理平台、故障管理平台等；还有就是涉及生产环境管理的平台，比如：机器初始化平台、服务发布变更平台、配置管理平台、数据分发变更平台、接入层平台；对于其他平台，比如容器管理平台、日志中心，架构部干也可以，运维部干也可以，看人力吧，两个老板商量着来~

好了，总结到这里，干运维的，如果只是帮业务上线、配置一下nginx、安装个xx软件，那就没意思了，散兵整理的这5个方向是个人的一个理解，欢迎探讨：）

数据库

文章转载自运维散兵，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

干运维的你得具备这些能力

评论