暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

您的服务器多久没有重启了?

浪潮商用机器 2025-07-17
169

企业级服务器,作为用户关键业务系统的核心平台,需要提供7×24小时不间断稳定运行,满足用户对服务器提出的许多严格要求,如具备高可靠、高可用、智能化运维等特性。

企业级用户,在为其关键业务系统选择服务器平台时,追求所选择服务器在生产中不能频发故障,不会给企业造成直接和间接的重大业务损失。但在现实中,有些用户所选择的服务器,还是发生了这样那样的问题,服务器停顿和重启,使业务受到了严重影响。究其服务器发生的故障原因,大致有以下两种:
  • 计划外的一些故障,触发了服务器停顿和需要重启,如底层硬件故障、操作系统本身故障、应用软件问题引发了操作系统的故障,或者人为运维调整操作不当引起了系统停顿。此种情况,通常会给用户业务系统造成严重的影响和损失。

  • 计划内的主动运维行为,例如需要对硬件、操作系统、应用等做各种变更操作,有计划地对有关服务器做重启动作。此种情况,对业务系统的影响,是在用户自己计划内和可控的范围内。


企业级服务器计划外停机对业务影响巨大

大家从不同渠道,时常听到某服务器的平均无故障时间如何,某服务器的可用性是具有5999.999%),或者具有6999.9999%)等等的宣称。

具有59可用性服务器,相当于因故障每年会有5.26分钟的计划外停机时间;69的可用性服务器,相当于每年会有31.5秒的计划外停机时间。

服务器因故障,造成计划外停机的潜在后果,会对用户、业务合作伙伴和供应商,产生负面的多米诺骨牌效应,会增加诉讼和不遵守行业和政府法规的风险,损害公司的声誉并导致业务损失。

据国外咨询机构调查,银行/金融、教育、政府、医疗保健、制造、零售、运输和公用事业等行业用户,更依赖具有高可靠性的服务器。他们的服务器几分钟的停机时间,会中断他们的业务运营,并立即影响其收入。如果故障发生在业务高峰期间,或重要业务交易受到了中断,造成的损失更加严重。

量化服务器故障给业务造成的直接和间接损失,不是一件简单的事情,需要有一个经得起考验的量化模型。2023年,国外某咨询机构对企业用户,统计过服务器每小时的停机成本:
  • 93%的中型和大型企业用户的1小时服务器停机,可能会导致30万美元或更多的潜在损失
  • 在这93%的大多数公司中,超过一半或46%的公司负责人表示,每小时的停机成本超过了100万美元到500万美元以上
基于此调查,可以评估出服务器每分钟停机造成的经济损失如下:
  • 如果服务器停机1小时,造成10万美元的损失,则每分钟停机的损失会是1670美元
  • 如果服务器停机1小时,造成30万美元的损失,则每分钟停机的损失会是4998美元
  • 如果服务器停机1小时,造成100万美元的损失,则每分钟停机的损失会是16670美元

由此可见,对于企业级用户,即使是短时间的服务器停机,也会给企业带来直接的经济后果,导致日常运营成本飙升。


用户如何直观检查服务器的连续运行时间

不管服务器厂商如何宣称其服务器具有几个9的可用性,用户自己的日常实际使用体验,是对服务器可靠性的最好诠释。具体一台服务器到底平稳运行多长时间了,有什么简单方式可以查看?

对于运行UNIX或者Linux操作系统的服务器,可以通过执行uptime 系统命令,达到目的。在操作系统帮助手册中,对uptime 命令解释如下:

用途:显示系统已连续运行了多长时间

描述:uptime 命令会打印出当前时间、自从上次重启后系统已运行的时间长度、当前在线的用户数量以及系统的平均负载。平均负载指的是在最近1分钟、5分钟、15分钟内的可运行进程的平均数量。

以浪潮商用机器K1 Power服务器作为举例,在AIX环境中运行下列命令组合,可以查看这台服务器的型号、主机名称、AIX当前版本、系统运行时间、AIX内核版本的信息:

# prtconf | grep -i "System Model" ; uname –a ; oslevel –s ; uptime ; lslpp -h bos.mp*

在Linux环境下,运行下列命令组合,也能得到相应的信息:

cat  /proc/cpuinfo | grep -i "machine" ; uname -a;  uptime



关于对浪潮商用机器K1 Power服务器连续运行时长的调研

20255月和6月,我们对使用K1 Power服务器的部分用户,进行了K1 Power服务器可用性调研。请用户在自己服务器上运行以上命令,查看其服务器的持续运行天数、操作系统内核版本等信息。

我们总共收到了75个用户反馈,和143个服务器/操作系统的uptime 查看信息。从反馈结果可知,浪潮商用机器K1 Power 服务器的表现,大致分为以下三种情况:

2018-2020年期间,许多用户采购了浪潮商用机器K1 Power服务器,自服务器安装和业务上线投产之日起,服务器上的操作系统一直在安全稳定的运行着,至今没有发生任何重启,K1 Power服务器的uptime时间高达5+年至近7年之久。

例如,国内某通信行业用户,使用浪潮商用机器K1 Power服务器,作为其计费关键业务的内存数据库和计费应用服务器。服务器自投产日期起至20255月,已经稳定连续运行了1998天(约等于5.5年)。

又如国内某行业用户,使用浪潮商用机器K1 Power K8850G2服务器,运行其核心业务系统的数据库,于20226月正式上线。20255月,其服务器uptime等命令的输出见下图,该用户于2022612日安装了AIX 7.1.4操作系统,服务器自从上线至20255月,已经正常连续运行了1049天(约等于2.87年)。


有些用户制定了特殊运维方式:每一至两年内,需要进行灾难演练,有计划的对其数据中心内的有关服务器分批分次的人为重启。这种情况下,统计出的服务器的uptime 一般是1-2年之间。

例如,下图中的国内某用户,使用浪潮商用机器K1 Power 服务器,运行其核心业务系统,自从上次计划内重启至20255月,这台服务器正常持续运行了621天。


不少企业用户,因为某种原因,其某些业务应用软件无法做任何升级了,尽管硬件早已经到了需要升级换代的时间,这些应用仍然运行在十多年前购买的老旧Power服务器上。近几年,浪潮商用机器有限公司与用户密切配合,制定了可行的硬件升级方案,将用户原有旧应用和原有操作系统,成功迁移到浪潮商用机器K1 Power服务器上,确保了用户应用延续运行在新服务器平台。

例如,下图所示的某用户,于2022年,将其某重要老应用和原有操作系统,全部迁移到了浪潮商用机器K1 Power K8850G2服务器上。2022年至20255月,这个老应用在新平台上已经稳定持续运行了1007天(约2.8年)。


浪潮商用机器K1 Power服务器为什么有如此良好表现

从这次调研和平时市场反馈而看,浪潮商用机器K1 Power服务器,获得了中国广大企业用户的认可,为用户关键业务的7 x 24小时连续运行,提供了有力保障。

究其背后原因,是因为浪潮商用机器K1 Power服务器始终追求较高的RASReliability, Availability, Serviceability)品质和特性。浪潮商用机器K1 Power服务器在设计、测试、生产等各个阶段,端到端的体现了RAS理念和落地。

浪潮商用机器K1 Power服务器在各个层面,如硬件组件、接口、固件、虚拟化层、操作系统、系统软件,都着力打造RAS品质。联合软硬件机制,为业务运行提供最大的连续性,以及能够根据业务实际需求,做到动态监控、优化和调整服务器资源,保证服务器为业务发挥最大性能。例如下表,列出的浪潮商用机器K1 Power K8880G3服务器的部分RAS功能,对帮助提升服务器的uptime时长,起到了很大作用。

类别

部分RAS功能

用户价值

高可靠性/高容错性

  • Hypervisor活动内存镜像

  • 动态服务处理器故障切换

  • 服务处理器自动重置/重载

  • 动态时钟故障切换

  • 处理器指令重试

  • 预测性资源隔离(如核心级隔离)

  • 核心异常停止保护

  • L2/L3缓存线删除

  • 互连总线CRC/重试

  • 内存数据巡检

  • 内存ECC/芯片容错处理

  • 备用DRAM模块、DRAM行修复技术

  • 预测性动态内存隔离

服务器关键器件冗余设计,单点故障低。

通过预防性检测机制,对关键器件可能发生的错误,提前进行纠正,或者将有潜在致命故障器件进行隔离,避免单个故障给服务器整机造成宕机。

 

这样设计的服务器,具有业界极高可靠性,助力企业关键业务系统的平稳运行。

7×24小时持续可用性

  • 冗余/热插拔电源模块

  • 热插拔风扇组件

  • 可插拔电压调节模块(VRM)

  • 过流保护(OCC)错误处理:支持安全供电模式
  • 冗余风扇/风机设计
  • 双服务处理器架构
  • 冗余系统时钟源
  • 冗余重要产品数据(VPD)存储
  • 系统级VPD双备份
  • 动态核心初始化调整处理器-内存缓冲恢复
  • 集成N+1电源调节器

支撑服务器具有5999.999%)以上高可用性,降低服务器计划外宕机时间,最大化支撑用户业务系统的连续运行。

高效可维护性

  • NVMe存储设备在线维护

  • PCIe适配器在线维护

  • 时间同步电池(TOD)在线更换

  • 增强型错误处理(EEH)

  • 操作面板在线维修

  • 固件在线更新

  • 内存保留式初始程序加载(IPL)

  • 硬件与操作系统转储功能

  • SMP电缆故障隔离(时域反射TDR检测)

  • SMP电缆在线维护

问题发生时,支撑准确定位问题,在线维修许多关键器件和部件故障,在线安装安全补丁,动态调整和优化有关参数。

 

服务维修窗口的缩短,降低用户业务的中断时间,减少故障损失。



总结

从浪潮商用机器K1 Power服务器产品设计而言,其许多RAS功能天生就是为企业级用户量身打造的,是支撑企业用户关键应用的基石。

对使用浪潮商用机器K1 Power服务器的部分中国用户的调研结果表明:浪潮商用机器K1 Power服务器,确实能够帮助企业关键业务,做到7x24小时的稳定运行。

文章转载自浪潮商用机器,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论