暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

运维?巡检?到底涵盖那些内容呢?(含巡检模板)(一)

网络民工 2021-12-21
1948

点击蓝字

2021

关注我们

前言

对 IT 系统巡检的逻辑组成,通过对范围定义的与 IT 系统相关的维度的评估,定位当前 IT 系统的健康状况,指导建立改进方案与方针。


对 IT 系统巡检的具体评估指标, 用于支持对范围所定义的维度评估结论, 提供具体的数据支持;用于给客户提供巡检类报告的数据提供数据支持。


01

巡检维度


对 IT 系统巡检的评估维度主要包括以下五个方面:

一个完备的 IT 系统建设应该包括上述所有相关解决方案, 而客户应用系统中在这几方面体现了不同的完备程度。由于用户行业与业务特点,对这些范围的侧重程度不同, 因此我们在评估特定行业用户的 IT 系统之初, 要充分考虑这种行业因素,所得出的结论也是对特点行业用户有指导意义的评估结果。


1.1  基础设施状况


IT 基础设施包括系统软件平台和硬件基础设平台。


系统软件平台主要包括操作系统、数据库、中间件。


硬件基础设平台主要包括网络通讯平台和服务器系统平台以及存储系统平台。


对基础设施状况的评估内容包括:


  • IT 系统运维环境状况

  • IT 系统硬件运行状况

  • IT 系统软件平台运行状况

  • IT 系统链路状况


1.2  容量状况


由于 IT 系统的业务和服务需求可能每天都在发生变化,信息系统有时会遇到带宽和存储能力不足的问题。要与 IT 系统当前和将来的业务需求相符意味着必须经常地测定容量。容量规划是一种性能价格比很高的手段,可以根据以往的性能统计数字预知潜在的资源短缺情况。

正确的对当前 IT 系统的容量状况做出评估, 是掌握和预测系统当前和未来可用程度的一个重要标志之一,进而也以此为依据做出合理的容量规划。


对容量状况的评估主要包括:


  •  网络带宽负载状况

  •  存储的容量状况

  •  主机系统负载情况

  •  业务系统所能承载的吞吐量

  •  软件平台参数配置适用度。


1.3   性能状况


IT 系统所提供的业务的性能,是当前业界评价 IT 系统实施成功与否的主要标准之一。


通常对 IT 系统性能状况评估的对象为具体的业务功能模块, 但并不是针对所有的业务功能模块,对这些模块的选取一般遵循以下原则:


  系统日常运行中,使用频率高的功能模块;

  系统日常运行中,业务容易产生相对大并发量的功能模块;

  涉及到的大数据量表操作的功能模块;

  用户反映性能问题突出的模块。


通过选取具有代表性的功能模块,进行性能评测,得出当前系统的性能状况,而这种巡检的环境需要接近真实环境才具有说服力。而本 IT 系统预防性巡检活动通常是在真实的生产环境下完成,因此需要采取适合现场环境的性能评估手段来完成。


对 IT 业务系统的性能评估主要包括以下三个方面:


  • 业务系统的响应性能状况

  • 业务系统的稳定性性能状况

  • 业务容量性能状况


业务系统的响应性能指的是在正常业务并发负载下,以响应时间为主要关注点的业务模块操作的执行时间,通常单位为秒;


业务系统的稳定性性能的主要关注点则是在长时间较大负载压力下,业务系统能够正常完成业务操作的程度;

业务容量性能状况指的是当前业务系统负载承受能力,目的是了解系统的业务压力可承受的范围,以便在峰值到来之前做出应对措施,通常关注的性能指标为并发量和业务的吞吐量。


1.4   信息安全


这里把信息安全定义为信息系统数据不会被非法用户在未经授权的情况下取得或破坏。信息安全所涉及的技术与业务层面很广,以下是对其简要分类:


1)物理安全


保护信息系统的机房环境、设备、设施、媒体和信息免遭自然灾害、环境事故、人为物理操作失误、各种以物理手段进行的违法犯罪行为导致的破坏、丢失。


2) 网络系统安全


网络防护安全是数中心据安全的重要组成部分。网络安全模式要求数据中心首先分析自己的网络系统,并从中找出不同业务、数据和安全策略的分界线,在这些分界线上构建 IT 系统安全等级不同的安全域。


在安全域划分的基础上,通过采用入侵检测、漏洞扫描、病毒防治、防火墙、网络隔离、安全虚拟专网(VPN)等成熟技术,利用物理环境保护、边界保护、系统加固、节点数据保护、数据传输保护等手段,通过对网络和系统安全防护的统一设计和统一配置,实现 IT 系统全系统高效、可靠的网络安全防护。


3) 操作系统安全


操作系统提供若干种基本的机制和能力来支持信息系统和应用程序安全,如身份鉴别、访问控制、审计等等。目前主流的商用操作系统主要有 UNIX、LINUX和 Windows 平台。由于商用的普遍性特点,这些系统都存在许多安全弱点,甚至包括结构上的安全隐患, 比如超级管理员/系统管理员的不受控制的权限、 缓冲区溢出攻击、病毒感染等。


操作系统的安全是上层应用安全的基础。提高操作系统本身的安全等级尤为关键,除了及时打 Patch 外,还要采用如下的加强措施:


  • 身份鉴别机制:实施强认证方法,比如口令、数字证书等;

  • 访问控制机制:实施细粒度的用户访问控制、细化访问权限等;

  • 数据保密性:对关键信息、数据要严加保密;

  • 完整性:防止数据系统被恶意代码比如病毒破坏,对关键信息进行数字签名技术保护;

  • 系统的可用性:不能访问的数据等于不存在, 不能工作的业务进程也毫无用处。

  • 因此操作系统要加强应对攻击的能力,比如防病毒、防缓冲区溢出攻击等;

  • 审计:审计是一种有效的保护措施,它可以在一定程度上阻止对信息系统的威胁,并对系统检测、故障恢复方面发挥重要作用。


4)数据库安全


数据库安全性问题应包括两个部分:一、数据库数据的安全。它应能确保当数据库系统 DownTime 时, 当数据库数据存储媒体被破坏时以及当数据库用户误操作时,数据库数据信息不至于丢失;二、数据库系统不被非法用户侵入。它应尽可能地堵住潜在的各种漏洞,防止非法用户利用它们侵入数据库系统。

5)数据的传输安全


为保证业务数据在传输过程的真实可靠,需要有一种机制来验证活动中各方的真实身份。安全认证是维持业务信息传输正常进行的保证, 它涉及到安全管理、加密处理、 PKI 及认证管理等重要问题。应用安全认证系统采用国际通用的 PKI技术、X.509 证书标准和 X.500 信息发布标准等技术标准可以安全发放证书,进行安全认证。当然,认证机制还需要法律法规支持。安全认证需要的法律问题包括信用立法、电子签名法、电子交易法、认证管理法律等。


6)应用身份鉴定


由于传统的身份认证多采用静态的用户名/口令身份认证机制, 客户端发起认证请求, 由服务器端进行认证并响应认证结果。用户名/口令这种身份认证机制的优点是使用简单方便,但是由于没有全面的安全性方面的考虑,所以这种机制存在诸多的安全隐患。可以采用:双因子认证和 CA 认证两种解决方案。


7)应用授权管理


权限管理系统是 IT 系统信息安全基础设施的重要组成部分,是 ICDC 信息系统授权管理体系的核心。它将授权管理和访问控制决策机制从具体的应用系统中剥离出来,采用基于角色的访问控制(RBAC,Role Based Access Controls)技术,通过分级的、自上而下的权限管理职能的划分和委派,建立统一的特权管理基础设施(PMI,Privilege Management Infrastructure) ,在统一的授权管理策略的指导下实现分布式的权限管理。


权限管理系统能够按照统一的策略实现层次化的信息资源结构和关系的描述和管理,提供统一的、基于角色和用户组的授权管理,对授权管理和访问控制决策策略进行统一的描述、 管理和实施, 提供基于属性证书和 LDAP 的策略和授权信息发布功能,构建高效的决策信息库和决策信息库的更新、同步机制,面向各类应用系统提供统一的访问控制决策计算和决策服务。建立统一的权限管理系统,不仅能够解决面向单独业务系统或软件平台设计的权限管理机制带来的权限定义和划分不统一、各访问控制点安全策略不一致、管理操作冗余、管理复杂等问题, 还能够提高授权的可管理性, 降低授权管理的复杂度和管理成本,方便应用系统的开发,提高整个系统的安全性和可用性。


8)应用访问控制


访问控制是 IT 系统安全防范和保护的主要核心策略, 它的主要任务是保证信息资源不被非法使用和访问。访问控制规定了主体对客体访问的限制,并在身份识别的基础上,根据身份对提出资源访问的请求加以控制。它是对信息系统资源进行保护的重要措施,也是计算机系统最重要和最基础的安全机制。根据控制手段和具体目的的不同, 数据中心的访问控制技术包括以下几个方面:入网访问控制、网络权限控制、目录级安全控制、属性安全控制等,只有各种安全策略相互配合才能真正起到保护作用。

9)应用审计追踪


IT 系统的安全审计提供对用户访问系统过程中所执行操作进行记录的功能,将用户在系统中发生的相关操作(如:系统登陆/退出、系统操作)记录到数据库中,以确保在需要的时候,对用户历史访问系统的操作进行追溯。


通常审计跟踪与日志恢复可结合起来使用,日记恢复处理可以很容易地为审计跟踪提供审计信息。如果将审计功能与告警功能结合起来,就可以在违反安全规则的事件发生时,或在威胁安全的重要操作进行时,及时向安检员发出告警信息,以便迅速采取相应对策,避免损失扩大。审计记录应包括以下信息:事件发生的时间和地点;引发事件的用户;事件的类型;事件成功与否。


在 IT 系统中,审计可以是独立工作的不相关的组件的集合,可以是相互关联运作的组件的集合。审计范围包括操作系统和各种应用程序。


10)安全管理与策略


IT 系统安全管理系统应包括管理策略、管理组织保障、管理法规制度以及管理技术保障等内容。


IT 系统安全是一个动态不断调整的过程,它随着 IT 系统业务应用和基础设施的不断发展而不断改变,例如 IT 系统信息系统各个信息网络、信息安全部件的具体设置规则,包括特定系统(设备)的口令管理策略、特定防火墙的过滤规则、特定认证系统中的认证规则、特定访问控制系统中的主体访问控制表、安全标签等。为了保证 IT 系统信息安全,及时进行安全策略调整是必要。管理组织保障,实现对人员、系统、安全设备、物理环境和系统运行的安全管理。另外,IT 系统安全策略应遵照相关行业的法律、规定。


管理技术保障是 IT 系统安全运行管理的技术保证。


1.5   业务连续性


连续性是指一个数据中心类应用为了维持其生存, 一旦发生突发事件或灾难后,在其所规定的时间内必须恢复关键业务功能的强制性要求,这就需要预先发现可能会影响企业关键业务能力和过程的所有事件, 采取相应的预防和处理策略,以保证企业在事件发生时业务不被中断。通过业务连续性计划保证数据中心业务的不间断能力,即在灾难、意外发生的情况下,无论是数据中心组织结构、业务操作和 IT 系统,都可以以适当的备用方式继续业务运作。

严格的说,业务持续计划的建立和实施过程,实际上是涉及数据中心运营,因此也涉及到项目管理的方方面面。通过多年的实践,根据自身实践经验并参照国际灾难恢复协会(DRI)与业务连续性协会(BCI)的标准,总结出业务持续计划的模型,经过长时间的验证,该业务持续计划模型能够给数据中心带来有效及彻底的业务持续管理。


灾难恢复的技术实现和级别——


容灾按级别可分为数据容灾和应用容灾两部分:


数据容灾:在异地建立一个数据拷贝,这个拷贝在本地生产系统的“数据系统”出现不可恢复的“物理故障”时,提供可用的数据。


应用容灾:在异地提供一个完整的应用和数据系统拷贝(不一定要求同当量),这个拷贝在本地生产系统出现不可恢复的“物理故障”时,提供即时可用的生产系统。


1)平台安全性


平台完整性解决 ICDC 内部业务平台和接入平台的高可靠性问题。主要包括服务器、存储和网络层面的技术。


平台完整性涉及的技术主要包括:服务器、存储器、及相应网络连接的部件级可靠性技术;平台的集群技术;Application Server 的高可靠技术;数据库的高可靠技术。


2)备份和恢复完整性


备份和恢复完整性实现 IT 系统内部对业务数据平台的保护。包括服务器和存储层相关技术。


备份完整性涉及的技术主要包括基于磁带、光盘等离线介质的备份技术(或称定点拷贝) ;以及基于在线存储介质(磁盘)进行的生产数据快照技术。


实现备份完整性目标,首先需要映射业务种类所需要的数据集。即根据容灾备份系统的需求,明确哪些业务状态数据需要备份,事实上,需要提供最完善备份的是稳定的业务状态数据, 而处理流程当中的中间临时数据的备份需求较低。

另外,在备份完整性的实施过程中,应该区分备份数据和存档数据。备份数据是为满足容灾备份的要求,具有较短的时效性,备份数据会根据一定的备份频度被反复覆盖。存档数据则按照业务或法规的要求,有较长的时效性,并具有不断累积的特性。


在绝大多数数据中心应用场合, 备份是经常性的工作, 恢复是十分偶然的操作,因此, 恢复往往是难以经过充分巡检、 优化的容灾备份技术---这就更加要求恢复操作具有明确的可预见性。


3)信息完整性


信息完整性实现对业务数据平台的跨 ICDC 生产中心的保护, 实现信息完整性技术是将业务连续性扩展到容灾阶段的一个十分关键的步骤。


信息完整性技术将生产中心的业务状态数据完整地复制到备份中心。


实现信息完整性可以采用同步或异步复制技术。


4)处理完整性


处理完整性即对业务支撑系统平台的完整的、跨越生产中心的保护。


实现处理完整性, 需要比较复杂的系统集成工作, 包括详细的系统设计和规划。


目前的大多数关键业务及其关联子业务系统的容灾的级别要求为处理完整性。


实现处理完整性的关键在于以下三个要素:


  • 对数据平台的保护-远程数据复制技术(即信息完整性)和对业务平台的保护-服务器、数据库等冗余及切换技术以及应用软件切换技术的集成

  • 对接入平台的保护和切换-外部接口的冗余和切换

  • 系统的监控和切换


5)业务连续性管理


业务连续性管理是 IT 信息安全政策的宏观管理文件, 该规范清楚说明业务连续性计划对于保障信息安全所采取态度、监管责任以及信念。


业务连续性管理规范包含《灾难恢复预案》 、 《业务连续性计划》等文件。这些规范从宏观层面,涵盖了灾难备份建设所涉及的内容,其目的是要保护信息安全。根据这些规范,建立业务连续性计划、灾难恢复预案,其中主要包括:灾难应急小组的组织架构和人员职责, 应急队伍、 联络清单及各类应急处理流程,普及教育及人员培训计划和演习计划等,并报主管部门备案。

主管部门要对各单位灾难恢复预案进行全面审核,评估灾难恢复预案的完整性和可操作性,配合建立规范的管理制度和操作文档。


定期进行灾难演习与应急培训。


未完待续。。。

文章来源:数据中心运维管理

2021

扫二维码|关注我们

微信号|Networking_MG

关注公众号

加入“网络工程师”交流群

更多内容

1

割接、运维你真的有经验吗?一问便知

2

谁把无线路由器当Hub乱接啦?

3

线上故障排查全套路,拿走不谢!

4

割接!写脚本的重要性

5

网络常见的 9 大命令,非常实用!

我知道你在看

文章转载自网络民工,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论