暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

【交易技术前沿-上交所技术大会专刊】绿色数据中心运维探索与实践

上交所技术服务 2021-08-19
705

 本文选自《交易技术前沿》总第四十四期文章

(上交所技术大会专刊)

绿色数据中心与云专题分享

熊经纬 上海上证数据服务有限责任公司

一、 数据中心发展现状

       数据中心作为承载数据的基础物理单元,应用于生产和生活各个环节,成为各行各业数字化转型的重要支撑,能够推动数字经济快速发展。但因数据中心高能耗的特点,无序建设会给社会经济带来沉重的资源负担。结合一组数据来看,近年数据中心建设持续火热,过去十年间整体用电量以每年超过10%的速度递增。2020年用电总量突破2000亿度,约占全社会总用电量的2.7%,超过三峡和葛洲坝发电量之和。此外,数据中心需要用水进行冷却,用水量也非常大,每万机柜的年用水量约100万立方,相当于一个小型水库。
       近年来,国家和地方政府陆续出台一系列政策措施,通过能耗指标来约束数据中心的无序发展。例如,上海要求新建数据中心PUE控制在1.3以下,并禁止在中环内新建数据中心;北京则限制PUE不超过1.4,中心城区全面禁止新建和扩建数据中心。但同时,国家也将数据中心作为算力基础设施纳入新基建范畴,并在十四五规划中明确提出加快建设。鼓励具备数据中心规划、设计、建设、运维能力的头部企业,通过集约化和规模化效应,建设为行业和市场提供基础设施支撑的绿色、节能、可持续发展的数据中心,引导数据中心行业向集约化、规模化和绿色化的方向健康发展。

二、 上交所数据中心战略规划

       在上述背景下,伴随中国资本市场的发展,以上交所、深交所、中金所等几大交易所为主的市场核心机构,开始陆续为资本市场建设高可靠、安全、绿色的数据中心。
       ●上交所数据中心现状
       截至2020年底,上交所数据中心布局已基本达成“核心一加三、两地三中心”的总体建设目标。
       核心一加三:上交所以上海金融交易广场(竹园新大楼)为主要办公场所,交易运行值守值班室及各业务部门操作室均部署于此。以竹园为中心,依次部署陆家嘴、外高桥、金桥三大核心数据中心。竹园应急指挥中心直连三大核心数据中心,掌控全局、统一指挥。
       两地三中心:上交所核心交易系统以上海陆家嘴数据中心和外高桥数据中心为同城主运行中心,以深交所南方数据中心为异地灾备中心,充分满足中国证监会对异地灾备的要求。
       上交所数据中心规划
       在未来5年,上交所数据中心的整体布局规划将作一定调整:
       一是加快金桥数据中心启用和运营,构建上交所金桥主运行中心,发挥行业运行托管和增值服务中心功能。
       二是统筹实施外高桥数据中心改造和扩建,完善上交所同城灾备中心功能布局,构建“金桥+外高桥同城双中心”。
       三是调整证券大厦数据中心功能定位,将其打造成金融科技研发高地、创新应用高地和人才聚集高地。
       四是实施绿色可持续发展战略,统筹推进绿色数据中心建设及运营,结合数字化转型实现提效降耗,提升绿色节能水平。
       上交所在技术战略规划中,对未来5年数据中心的发展给出了明确的方向。作为上交所从事专业数据中心设计、建设、改造和运维的全资子公司,上证数据公司将为行业、上交所以及核心机构,提供安全可靠、绿色可持续发展的数据中心服务。

三、 安全可靠、绿色可持续发展的金桥数据中心

       根据现阶段的国家政策,以及上交所对资本市场重要基础设施的理解,目前行业级数据中心最重要的两个特征分别是安全可靠和绿色节能。

(一) 金融行业数据中心特点

 与互联网、IDC数据中心不同,金融行业数据中心特别注重安全可靠。这些金融机构内部制定更为严苛的行业安全标准,技术偏向性比较保守,因为新技术可能带来风险。例如,许多银行数据中心仍在使用工频UPS和隔离变压器,这类设备运行稳定,配置必要性较强。但随着技术的发展,新型设备与这些设备的安全性无异,运行效率更高。
       金融机构更偏好多冗余架构,因为多冗余会更安全。一些大型金融数据中心为确保安全运行,将两套制冷系统同时热备份运行。容错架构的双冷源系统是可以支持更为节能的冷备运行,但出于风险考虑,这些数据中心尚未尝试。
       此外,金融机构更愿意在运行上用人代替技术,因为他们认为人更可靠,金融数据中心的运维人员配比普遍较高。一旦出现故障,需要人工第一时间到场处置,人员配置是按照复杂事件需要配置的最少人员数来确定的。
       这类偏重安全可靠的方式并不代表未来数据中心的发展趋势,在国家大力提倡绿色节能的背景下,我们需要基于安全可靠,再进一步探索新技术的应用。在金融行业从业人员看来,互联网和IDC在数据中心新技术应用方面,走的路线比较超前,比如他们会使用市电直供加UPS/HVDC的双路供电模式;会使用水冷背板或液冷技术,这些技术的节能效果非常好,但都存在部分金融机构所顾虑的隐患,比如服务器       无法承受市电直供的波动,不能接受水进机房。
       作为金融行业数据中心,在技术路线以及运维模式的选择上,不能止步创新,但必须要把握安全运行的高要求与绿色节能间的平衡,结合实际、探索创新、规避风险,实现绿色可持续发展目标。
       金桥数据中心和上述传统金融行业数据中心存在相同也有不同,相同的是金桥数据中心基础设施安全可靠性的设计标准,在整体架构设计上均参照UPTIME T4容错级别进行设计。不同的是,金桥数据中心在充分考虑安全可靠的基础上,在各种风控措施能够被有效利用的前提下,对节能技术和运维实践做进一步的探索和应用。

(二) 金桥数据中心特点

        安全可靠
       金桥数据中心的基础设施架构完全符合UPTIME T3/T4容错级别设计。配电系统源端由三路110KV市政电力接入,采用“三进线2N输出”架构,末端采用2N架构的UPS系统,配以全负荷容量的柴油发电机作为后备电源,采用源端和末端两级自动母连切换,确保供电可靠性。暖通系统全部采用双冷源系统,配以不间断制冷系统,确保冷源可靠性。网络系统设计也采用双环路、多运营商2N接入架构。
       绿色可持续发展
       在关注安全的基础上,金桥数据中心在绿色可持续发展方面进行了深入的探索与应用。
       ▲技术层面的应用
       1. 高效能:三级离心式冷水机组、高频UPS、高效能变压器、EC风机精密空调等等
       2. 低损耗:全园区中压供电及变压器上楼层(减少低压供电距离)、智能母线(树干式供电)、冷冻水管道垂直布放(缩短供冷距离)、集中冷源备份系统(减少冗余设备)
       3. 再利用:免费制冷、余热回收(空气热、冷凝热)、光伏照明、太阳能热水、雨水循环利用
       4. 可持续:柴油发电机耦合飞轮储能不间断电源系统
      ▲ 运维层面的实践
       1. 全冗余制冷系统冷备运行。
       针对全冗余制冷系统在不同场景下,设计多运行切换策略,并辅以不间断制冷系统和维温程序,使两套全冗余系统能够在冷备运行时的安全性不低于热备运行。冷备用较热备用可达到更好的节能效果。
       2. 应用12度高温冷冻水系统。
       应用12度高温冷冻水系统,显著提升冷水机组能效比(COP),结合机房热通道封闭技术,大幅提升回风温度,同时配合双盘管预冷式精密空调,有效延长自然冷却使用时间从3-5个月至7-9个月,从而达到绿色节能的目的。
       3. BA系统全自动化运行
       金桥数据中心已实现配电和暖通系统的全自动生产运行,不用人工干预实现设备和系统级的冗余切换。运维人员的配置不用基于故障处理,而是基于响应和恢复,使人员配比更精炼。
       上证数据公司充分评估绿色技术和运行策略之间的平衡,确保这些技术能够被安全可靠地应用。无论是技术路线选择,还是在运行策略的制定,我们都保持着创新精神和安全底线思维,在国家全面提倡绿色节能的大背景下,平衡安全可靠与绿色节能是未来数据中心运行的关键点。

(三) 安全可靠与绿色节能的平衡

       安全可靠与绿色节能,在数据中心生命周期中不是正向关系,但也不完全是反向关系,这主要是由于“负荷”引起的。数据中心在投运之初负荷增长会有一个趋势,这个趋势与数据中心的性质有关。互联网、IDC、运营商行业的数据中心,这个趋势可能很短,但对金融行业的企业级自用数据中心来说,这个过程可能比较长。
       在负荷增长未达峰值之前,通过特定的运行模式(开启所有设备,形成多冗余模式),可以使安全可靠性在设计基础上进一步提高,但节能水平是下降的。但随着负荷率不断上升,可靠性会逐渐回归设计值,而绿色节能水平则显著提升。这种现象我们称之为“冗余陷阱”。

       为什么说它是“冗余陷阱”,因为这是负荷在渐近增长的过程中,多冗余状态给运维人员带来的高可靠 “假”象。这种“假”象是反义特指,可靠性是真的提高,但却是预想(设计值)之外的,或者说,它(提高的这些可靠性)的意义并没有那么重要,体现在全年的业务中断时间可能只有几秒钟。但是“冗余陷阱”容易使运维人员的思想意识进入一种盲目的状态,一是认为这种可靠性的提升能够显著减少了运行风险;二是可能放松了对故障的及时处理以及对供应商响应和维修速度的严格要求。这种情况长此以往,一旦负荷上升,多冗余不复存在的时候,这种盲目状态会带来非常严重的管理问题。
       因此,作为金融行业数据中心的运营者,必须要清楚地认识到“冗余陷阱”的存在,不要陷在高可靠“假”象中,并能够在安全可靠与绿色节能之间取一个平衡点至关重要。这个平衡点其实很容易找,“安全点”就是我们对于数据中心可靠性设计的设定标准值;“绿色点”则是在“安全点”不低于标准值的基础上,尽可能的提升。
       金融行业数据中心从行业特点看普遍存在“冗余陷阱”的情况,要实现安全、可靠、绿色的数据中心运维目标,必须要正视它的存在,找到并把握安全和绿色间的平衡点,将有利于后续运维优化工作的进一步开展。

四、 绿色数据中心的运维探索

       数据中心运维三要素
       数据中心的运维三要素是指,人、制度和工具。倡导绿色数据中心运维同样也需要从这三个方面入手:
       1. 倡导绿色可持续发展的理念
       首先,要统一人员的思想认识,深入贯彻绿色可持续发展理念,消除“冗余陷阱”给运维人员带来的“运维蜜罐”效应。
       2. 建立基于安全可靠兼顾绿色节能的制度体系和运维策略
       在保障安全运行为基础上,建立标准化的数据中心管理制度体系并持续践行。金桥数据中心基于UPTIME M&O建立了一套数据中心的运维标准,并于2020年9月通过了认证。下一步,上证数据公司从数据中心运维实际出发,基于运行现状,在绿色可持续发展理念下,制定相应的运行策略,发挥数据中心的运行潜能。
       1) 开展精细化运维管理。针对负荷渐进增长的趋势,通过优化运行策略和控制逻辑(去多冗余化),提升运行效率,挖掘设备和系统潜力。
       2) 深入优化和探索全自动运行模式。持续优化生产全自动,完成维护、维修以及轮询切换的自动化改造;进一步探索节能全自动,能够基于气候条件、运行工况,在节能模式间自动切换。通过全自动运行,不断优化调整人员组织架构,使运维团队从事务性运维工作中释放,更精于数据中心的专家式运维管理。
       3) 试点运用新技术新措施。通过上交所各数据中心的翻新改造工程,探索适宜的绿色节能技术应用,如锂电池、HVDC、氟泵等技术,进一步提升数据中心节能水平。
       3. 运用一套智能化的运维管理工具
       金桥数据中心主要通过基础设施管理平台(DCIM)对整体运维工作进行管理,以实现安全、高效的运维目标。这套平台工具是运维数字化转型的基础,通过数字运维方面的不断探索,经过2年的不断迭代,平台已初步成型。
       金桥数据中心体量庞大、系统复杂,大型机电设备有5600多台,整个金桥数据中心的监控点位约140万个。生产相关的设备和系统在运行情况、环境参数的监控过程中,会产生大量的运行监控数据。这些数据间有着非常复杂的逻辑关系,比如机房设备负载的用电变化(电量),会引起机房环境数据的变化(温度),相应机房精密空调的开启台数或水流二通阀会跟着调整(状态),会影响冷冻水的回水水温和管道流量(流量),进而使水冷机组的负载率上升(负载率),用电量也会同步增加。
       为对这些大量而复杂的数据进行采集、分析和展示,金桥数据中心建立了一套数据中心基础设施管理平台DCIM,它集成了金桥数据中心电气、暖通、消防、安防等11个子系统。同时,金桥数据中心为了规范运维管理,我们按照UPTIME M&O数据中心运维管理体系标准,将全部运维流程(事件、变更、问题、维护、维修、值班、巡检等)在DCIM平台上基本实现了数字化。这些运维工作的开展,也会产生大量的服务流程数据。
       如何使这些数据产生价值,实现安全、高效的运维管理目标,不依靠人工经验判断,依据模型、算法,通过大数据分析,使运维更智能。上证数据公司基于金桥数据中心的现状,在DCIM平台上做了初步的探索。
       1) 构建基于CMDB的“大中台、小前台”的平台基础技术架构;
       2) 打通“烟囱式”运维管理模块间的服务流程数据交互壁垒,使数据在不同运维模块间互通互用,帮助我们优化流程结构,提炼运维价值;
       3) 打通运维管理模块与监控系统之间的数据交互壁垒,让运行监控数据更高效地服务于生产运维,使一线运维工作能够更高效、更便捷地开展;
       4) 在初步实现数据全面互通后,对这些运维产生的大数据进行治理,使数据具备“可用性”和“易用性”,真正成为“活数据”具有资产价值。
       目前,具有金桥特色的DCIM系统已初具规模,“活数据”的资产价值也初步体现。比如,能耗数据能够用于用户资源利用的计量,油量数据可以让运维人员明确掌握后备电源的支持时间,关键系统的状态展示可以清楚地了解系统健康情况等等。
       下一步,上证数据公司将要更深入地探索数字化转型,将数据资产业务化,使运维业务更加智能。未来,我们将继续对“活数据”进行全本记录,深入挖掘数据价值,建立基于场景的运维模型,实时驱动运维决策,从而持续优化运维流程和运行策略,服务于金桥数据中心安全、绿色、高效的运维目标。同时根据交易所技术战略规划,探索跨区域、多数据中心的集中管理,使运维管理水平不断提升,为中国资本市场提供更优质的基础设施服务。

 

 
  免责声明    

本公众号内容仅供参考。对任何因直接或间接使用本公众号内容而造成的损失,包括但不限于因有关内容不准确、不完整而导致的损失,本公众号不承担任何法律责任。如有问题请反馈至tech_support@sse.com.cn。


--------------------------
上海证券交易所为证券公司、基金管理公司等市场参与者及相关行业机构提供交易技术支持与服务,包括日常交易技术支持、技术交流研讨、市场调查反馈、证券信息技术知识库、测试等服务。

点击"阅读全文"了解详情


文章转载自上交所技术服务,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论