驰援河南，这里有一份医院数据中心业务恢复指南

深信服科技 2021-07-23

414

近几日，在极端强降雨侵袭下，河南大量医院的数据中心都受到不同程度损害，断电更是让很多医院的数据中心被迫关停，无法对外提供相关业务。

随着电力的逐步恢复，许多医院数据中心需要尽快重启以恢复被迫关停的业务。但断电之后的数据中心重启是一个系统性操作，容不得半点马虎。以下是我们梳理的业务恢复整套流程，希望能为医院稳定、安全地恢复信息化业务提供一些助力。

*如有需要可以致电400 630 6430，联系我们协助处理，我们会24小时提供相关咨询服务。

*如果您的数据中心目前受灾严重，短期内无法对外提供服务，深信服提供免费业务迁移上云的紧急服务，如有需要请致电400 630 6430。

整个医院数据中心业务恢复流程可以分为四个大的步骤，依次为：

基础环境检查> 进行机房供电> 执行硬件设备开机> 执行业务恢复。

基础环境检查建议及注意事项

1. 进入机房前要穿戴绝缘，防触电：进入机房前需要检查机房环境供电情况，为保障人员用电安全，进出机房时建议需要穿戴好绝缘手套以及绝缘靴，防止触电危险。

2. 进入机房后先确认进水情况，再检查接地及漏电开关：进入机房后首先需要确认机房或者设备是否有进水情况，可以观察机房内地面以及墙面是否有明显的水渍，若发现机房内部环境（地面、机柜、墙壁）或者设备表面有水渍和积水情况，需要检查机房的接地以及漏电开关情况，确保机房接地和漏电开关正常。

3. 检查机房的各个线路是否正常：是否有裸露、断线等情况，如果出现裸露或断线，应在机房供电前进行处理。

4. 设备进水请联系设备厂商：若发现机房内设备表面和设备内部有水渍和积水等情况，如个别设备已进水应在机房通电前进行隔离，避免烧坏设备，需要联系当地技术人员处理。如有大量设备进水或有水渍，请暂时不要重启业务，迅速联系设备厂商。

5. 未进水的机房设备要遵循错峰上电原则：若检查机房环境以及设备未出现进水情况，机房设备重新上电时需要遵循错峰上电原则，建议一次2-3台设备同时上电，避免所有设备同时上电瞬间供电压力过大，导致再次出现机房跳闸断电的情况。

注：设备加电顺序：①交换机> ②存储 > ③服务器。

进行机房供电建议及注意事项

1. 确认所有的服务器、存储和网络设备关闭电源后，对机房执行供电操作。供电后应借助专业设备检查机房的以下项目：

电气系统：供配电系统、不间断电源和后备电源系统、照明系统；
通风空调系统：冷源和水系统、机房空调和风系统；
消防系统；
智能化系统：环境和设备监控系统、安全防范系统；
环境参数：温度、湿度、空气含尘浓度等。

2. 待供电稳定后，恢复空调加电，启动后检查液晶板指示情况。

3. 确认供电是否稳定、正常，通知相关科室恢复系统使用，要求分科室分部门上线，切忌同时上线。

4. 在一段时间内，注意检查 UPS指示情况、空调机运行情况、机房温度情况等与断电情况有关的设备运行情况，做出记录。

执行硬件设备开机（务必遵循以下顺序）建议及注意事项

1. 执行网络与安全设备开机

（1）先确保网络设备正常后再启动其他设备，计算、存储、安全设备均需要网络进行相关联通。（用于维护存储阵列的相关交换机可先不启动，依托存储开机流程步骤进行）

（2）建议恢复顺序：接入网络业务区（核心业务区、非核心业务区、大容量存储区、PC接入区） > 核心网络业务区（核心交换）> 对外网络区（DMZ区、互联网医院、专线互联区等）。

（3）识别整体网络中基础服务业务位置（DNS、NTP、DHCP等），执行基础服务业务设备/服务器开机动作，开机后逐一检查服务是否正常，如有异常应先处理完毕后，再执行下面的步骤。

（a）接入网络业务恢复

主要指医院HIS、电子病历、PACS等临床业务区与各科室PC接入区。

恢复顺序：核心计算域（服务器、存储、数据库） > 接入计算域（办公接入区） > 安全支撑域（安全管理区）> 运维支撑域（网管支持域）。旁挂安全辅助设备（不参与数据转发）可暂不处置。

恢复方法：

接入交换机设备是否已开机、执行下联设备互联验证。
边界防火墙设备、服务器负载设备由近到远逐一检查是否已开机。
检查核心配置是否丢失，如有丢失，恢复配置到停电前配置备份节点。
执行下联设备网络联通性验证，如有异常需要对异常进行处理。
运维支撑域（网管支持域）可暂不处置。
如遇无法正常启动，应立即联系设备厂商，确认恢复方法。

开机方法：

硬件设备，在背板上连接电源线，打开电源开关，此时前面板的电源指示灯会点亮。说明设备正常工作。
请用标准的RJ-45以太网线将设备ETH0口与内部局域网连接，对设备进行检查。

（b）核心网络业务恢复

主要指：所有网络的汇集点。

恢复方法：

该域数据转发设备（路由器、交换机）由近到远逐一检查是否已开机。
域边界防火墙设备、链路负载设备由近到远逐一检查是否已开机。
注意事项：对外服务转发（防火墙/路由器/链路负载）设备开机后，先禁用全部对外业务的策略，如端口转换、地址转换等，防止因安全防护策略未生效，引发外部攻击无防护状态。
执行验证串联安全辅助设备（行为管理、防毒墙等）逐一检查是否已开机。
检查路由转发设备（路由器、核心交换机、链路负载设备）核心配置是否丢失，如有丢失，恢复配置到停电前配置备份节点。
检查安全支撑设备（防火墙、WAF、IPS、代理设备等），安全防护策略配置是否丢失。如有丢失，同上处理。
执行验证串联安全辅助设备（行为管理、防毒墙等）策略配置是否丢失。如有丢失，同上处理。
如遇无法正常启动，应立即联系设备厂商，确认恢复方法。

（c）对外网络业务恢复

建议恢复顺序：临床对外业务（缴费、挂号、医保对接等）> 全部对外业务。

恢复方法：

在对外服务转发（防火墙/路由器/链路负载）设备上，逐一开启对外服务，并验证服务有效性；
如遇服务无法正常，应立即联系设备厂商，确认恢复方法。

2. 执行存储开机

开机前检查：

FC交换机、存储网络交换机硬件外观、告警灯、电源等是否正常；如能登录交换机应该登录到交换机查看交换机各端口和健康状态。

恢复方法：

（a）存储阵列恢复

加电启动传统存储的磁盘柜；
确认磁盘柜正常启动、告警灯、磁盘柜序号正常；
加电启动存储控制器；
确认存储正常启动后，登录存储查看存储健康情况，确认业务状态、磁盘池、LUN、VOLUME、业务端口等都正常；
开启存储网络交换机（FC交换机、网络交换机）；
登录存储交换机，检查交换机状态、确认交换机正常；
加电开启业务服务器，检查业务服务器状态并确认状态正常；
登录业务服务器，检查是否能正常访问存储；
登录业务服务器，检查业务是否能正常启动，业务数据是否丢失。

（b）分布式存储恢复

加电启动分布式存储集群的存储服务器；
确认存储正常启动后，登录存储检查集群状态、确认业务状态、磁盘池、LUN、VOLUME、业务端口等都正常；
开启存储网络交换机（FC交换机、网络交换机）；
登录存储交换机，确认交换机正常；
加电开启业务服务器，检查业务服务器状态并确认状态正常；
登录业务服务器，检查是否能正常访问存储；
登录业务服务器，检查业务是否能正常启动与业务数据是否丢失。

如果存储设备无法开机启动、应立即联系存储设备厂商，确认存储数据恢复方法。并立即从备份系统中进行数据恢复。

3. 执行服务器开机

将服务器开机，服务器开机后应检查服务器硬件的各项指示灯是否正常，如有异常应先处理完毕后再执行下面的步骤。

4. 桌面云设备开机

异常断电除了会导致当时所有未保存的数据丢失外，还可能会导致平台虚拟存储的机械盘出现损伤出现坏道问题，对平台数据造成影响。因此建议平台重新开机后，优先采用巡检工具对平台软硬件进行检查，识别并排除巡检异常后，再正式重新投入使用。

巡检工具下载链接：

https://download.sangfor.com.cn/download/product/tools/aDesk_Tools4.1.4.zip

5. 检查业务承载平台是否正常

（a）超融合用户：检查超融合和云管的状态是否正常。

1. 服务器开机后，检查超融合的各项状态是否正常。如果超融合服务器采用非软关机可能会出现虚拟存储数据同步的任务，这是正常现象，等待数据同步完毕即可。

2. 如果使用了云计算管理平台，还应该检查云管虚拟机是否开机，状态是否正常。

3. 如果产生其他的异常情况，可先进行基础网络、服务器状态的排查，或联系深信服技术支持处理。

（b）VMware平台用户：仅提供参考建议。

请首先查询VMware相关KB库获取相关支持。

1. VMware单独使用vSphere不搭配vSAN使用：可尝试正常顺序开机即可，然后依据存储与业务恢复顺序进行；

2. vSphere与vSAN搭配使用：

① vCenter在vSAN上：

打开所有物理主机电源；
把所有主机推出维护模式；
登录vCenter所在主机，开启vCenter虚拟机；
开启健康检查确认vSAN状态；
开启其他虚拟机。

② vCenter不在vSAN上：

打开所有物理主机电源；
登录vCenter；
把所有主机推出维护模式；
通过健康检查确认vSAN状态；
开启所有虚拟机。

执行业务恢复建议及注意事项

1. 业务恢复顺序：临床业务（HIS、电子病历、pacs、财务缴费、手麻）＞平台业务（集成平台、HRP）＞管理监控业务＞运维监控型业务。

2. 业务恢复步骤：

（1）拉起核心业务的核心数据库：主要指医院核心业务比如HIS、财务缴费、电子病历等核心系统，具体由医院自行判断；先拉起数据库监听，再启动数据库实例。

数据库状态检查：

通用数据库在开机之后，普遍具有自检措施，如果存在数据不一致，或者是完整性被破坏等异常情况数据库会自动报错，无法对外提供服务。一旦重新通电启动后，数据库无法正常提供业务的话，需对数据库进行自检。自检完可根据相关错误代码寻求深信服服务支持。

（a）Oracle数据库状态检查

（b）RAC状态检查

请检查Oracle RAC状态是否正常，若目标库为单实例可忽略此步骤。在grid用户下，用crs_stat –t 命令查看RAC状态，除gsd服务是offline，其余状态均为online则正常。

（2）拉起核心应用服务器，并开启HA与CDP持续数据保护，避免由于其他不可控风险而导致的业务再次宕机。

检查虚拟机是否运行正常：

逐个检查业务系统的虚拟机是否已开机，如未开机则执行开机操作。
检查所有已开机虚拟机是否正常进入操作系统，如有异常需要对异常进行处理。
检查所有业务虚拟机的服务是否正常启动，如未启动可手动启动服务。
在终端检查所有业务是否正常，如有异常可先从网络层面进行排查。

（3）配置相关业务的中间件：消息中间件、负载均衡等具体配置，满足性能爬坡到正常业务状态。

天灾无情，我们携手共渡

如果您在医疗信息化方面有其他需要帮助事项，

请扫码告诉我们

万物皆可云，一切皆服务

欢迎关注深信服视频号

数据库

文章转载自深信服科技，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

驰援河南，这里有一份医院数据中心业务恢复指南

评论