暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

中小城商行数据中心存储规划实践

原创 柏鹏先 2022-01-26
1180

面对海量金融数据的快速增长,为更好地满足不同类型数据的存储要求,厦门银行以数据特性和应用场景为核心,对数据开展了存储域分类,并针对相应存储要求分析了合适的技术路径,以期助力金融同业制定更加科学、合理的存储规划,提升数据存储系统的安全性、稳定性和可靠性。

在银行IT系统建设过程中,早期的存储规划主要考虑业务处理系统中的结构化数据,针对非结构化数据的设计较少,且大多是以技术为导向,更为关注存储系统的自身特性。然而,随着互联网金融业务的快速发展,越来越多的非结构化数据(如日志、影像、视频等)被引入金融领域,且不同类型的数据对读写性能、可靠性、容量和扩展性的要求也各不相同。针对上述问题,本文从设置存储域的角度出发,提出了基于数据特性和应用的存储规划,不仅能很好地满足不同类型数据对存储的要求,还能够尽可能降低存储系统的建设成本,提高存储系统的实际效能。

一、按存储用途的数据分类及特点

1.数据类数据

数据类数据主要指应用系统运行产生的数据,包括结构化数据、半结构化数据和非结构化数据。其中,结构化数据主要指基于关系型数据库的数据,该类数据通常具有数据量较少、增速较慢等特点,同时对读写性能和可靠性的要求较高。半结构化数据主要指基于NoSQL/NewSQL数据库的数据,该类数据通常具有数据量较大、增速较快等特点,同时对读写性能和可靠性的要求较高。非结构化数据主要指文档、日志、票据、影像、视频等归档数据,该类数据通常具有数据量较大、增速较快等特点,同时对读写性能的要求相对较低。

2.应用类数据

应用类数据主要指应用系统、虚拟化、容器、VDI等数据,该类数据通常用于支撑系统运行,数据量相对较小,且增长速度较慢,对读写性能的要求相对较高。

3.备份类数据

备份类数据主要指备份文件和脱敏数据,该类数据通常仅在需要进行数据恢复或数据脱敏时才被读取,因此对读写性能的要求不高,同时具有数据量较大、数据增速较快等特点。

4.数据特点及存储要求

结合上述各类数据的不同特点,本文尝试总结了相应的存储要求(见表1)。

表1 各类数据特点及存储要求

中小城商行数据中心存储规划实践

二、存储类别与技术特点分析

1.传统存储与分布式存储

根据使用的存储技术不同,可将存储方式分为传统存储和分布式存储,例如SAN存储和NAS即均属于传统存储。近年来,随着分布式技术的快速发展,分布式存储技术与系统也应运而生,其通常是由主控服务器、存储服务器和多个客户端组成,各服务器之间通过网络互联,再作为一个整体对外提供存储服务。比较而言,传统存储具有运维简单、数据一致性强、稳定性高等优点,但建设成本较高、扩展能力有限,且当存储达到一定规模时还容易出现性能瓶颈;分布式存储系统则建设成本较低且扩展能力较强,同时其性能也可随服务节点的增加而提高。但是,分布式存储在运维和稳定性方面均不如传统存储,甚至可能会为提高数据读写效率而牺牲一定的数据一致性。

2.块存储、文件存储和对象存储

根据数据格式的不同,可将存储方式分为块存储、文件存储和对象存储。例如传统的SAN存储属于块存储,NAS属于文件存储。与之相比,分布式存储系统采用分布式存储引擎,对外可同时呈现为块存储、文件存储、对象存储。同时,上述存储方式具有分布式存储系统的所有优缺点。

(1)块存储

块存储通常是以扇区为基础,由一个或多个连续的扇区共同组成,功能上可将其看作是一个“裸盘”,无法被操作系统直接访问。针对这一特点,一般需要先执行RAID、划分LVM并将其格式化为特定的文件系统(如Ext3,Ext4,NTFS,FAT32等),之后才可以被操作系统访问。例如,常见的块存储主要有DAS、SAN,典型的块存储设备则包括磁盘阵列、硬盘、虚拟硬盘等。该方式的优点是读写速度快、数据可靠性高,适用于数据库等场景;缺点是位置过于底层不利于扩展,且应用成本较高,如未能建立集群则服务器之间的数据无法共享。

(2)文件存储

与块存储不同,服务器无需对文件存储进行格式化即可执行文件的上传下载操作。同时,文件存储又可以分为分布式文件存储系统和网络文件存储系统,典型设备有NAS,FTP、NFS服务器。该方式的优点是便于不同服务间的文件共享;缺点是读写速度较慢。

(3)对象存储

对象存储是分布式存储系统对外提供服务的一种重要方式,主要由对象、对象存储设备、元数据服务器、对象存储系统客户端等四部分组成,重在实现数据通道和控制通道分离。同时,通过提供Restful接口,可基于目录树的方式存储文件,但不支持随机的读写操作,典型设备包括内置了大容量硬盘的分布式服务器。对象存储的优点是不仅可直接访问磁盘,还能够提供文件共享服务以及比文件存储更大的存储空间;缺点是不支持直接使用“裸盘”的应用,如数据库等。

三、基于数据特性及应用的存储方案设计

为实现基于数据特性及应用的存储规划,本文特别引入了存储域的相关概念,即指具有相同读写性能、可靠性、扩展性要求的存储介质的集合。

1.数据存储域规划

数据存储域规划主要包括四类存储资源池建设,即高性能SAN存储资源池、NAS存储资源池、专用分布式存储资源池与通用分布式存储资源池。

高性能SAN存储资源池主要用于结构化数据的存储,同时为保证数据库具有良好的性能和可靠性,规划选用了高性能的SAN存储设备及存储虚拟化技术来建设高性能的SAN存储资源池。此外,为了保证数据的高可靠性,除采用RAID技术外,还通过SVC实现了存储的双镜像。

NAS存储资源池主要为各系统间的文件共享提供服务。

专用分布式存储资源池主要用于分布式数据库NoSQL/NewSQL的存储,如Hbase、MangoDB、TiDB等,一般为分布式数据库的存储引擎,数据的存储性能、可靠性和扩展性等均由数据库存储引擎实现。

通用分布式存储资源池主要用于非结构化数据的存储,如文档、日志、票据、影像等。为了适应各类存储要求,通用分布式存储系统可同时对外提供块存储、文件存储和对象存储服务,并采用纠删码技术来满足数据的高可用性要求,以及尽可能提高存储的有效容量。

综上,根据数据保护原则,数据类数据需要在同城中心实现数据的同步复制,在异地中心实现数据的异步复制,并定期备份到带库。数据存储域规划示意如图1所示。

中小城商行数据中心存储规划实践

图1 数据存储域规划示意

2.应用存储域规划

应用存储域重点规划了三类存储资源池,即中性能SAN存储资源池、专用分布式存储资源池及通用分布式存储资源池。其中,中性能SAN存储资源池主要用于存储非虚拟化计算资源池、应用程序、VMware资源池等应用数据,且由于该类数据需负责支撑系统运行,因此对存储的读写性能要求较高,但数据量较小且数据增长速度较慢。针对上述特点,为降低资源池建设成本可选用中性能的SAN存储设备,并使用存储虚拟化技术建设中性能的SAN存储资源池,以及采用RAID技术来保证数据的可靠性。

此外,通用分布式存储资源池主要用于存储其他虚拟化(如KVM)、容器、VDI等数据。为了适应各类存储要求,通用分布式存储系统一般可同时对外提供块存储、文件存储和对象存储服务,并采用多副本技术来满足数据的高可用性要求,以及尽可能地提高存储性能。专用分布式存储资源池则通常为超融合计算资源池,可以将数据的存储性能、可靠性和扩展性由超融合实现,如VSAN、Nutanix、SmartX等。综上,根据数据保护原则,应用类数据只需定期备份到带库即可。应用域存储规划示意如图2所示。

中小城商行数据中心存储规划实践

图2 应用域存储规划示意

3.备份存储域规划

备份存储域重点规划两类存储资源池,即专用SAN存储资源池和通用分布式存储资源池。其中,专用SAN存储资源池用于传统的带库备份,通用分布式存储资源池则主要用于冷数据的在线备份和数据的脱敏。此外,因冷数据对存储的性能要求不高,所以更加注重存储的容量和扩展性。对此,可采用纠删码技术来提高有效的存储容量,并将该通用分布式存储系统设计为同时对外提供块存储、文件存储和对象存储服务。备份域存储规划示意如图3所示。

中小城商行数据中心存储规划实践

图3 备份域存储规划示意

4.技术选择及备份策略

根据不同的存储域规划,笔者总结了常用的技术选型及备份策略(见表2),供同业参考。

表2 各存储域的存储技术选择概览

中小城商行数据中心存储规划实践

5.各存储域之间的数据流动

数据存储域涉及大量的结构化数据、半结构化数据和非结构化数据,通常需同步复制到同城中心,异步复制到异地中心的数据域,并定期备份到备份域的SAN存储、分布式存储或带库。与之相比,应用域存储主要

涉及应用、虚拟化等系统数据,通常只需按需备份到备份域的SAN存储、分布式存储或带库即可。此外,数据域与应用域之间一般无数据交换要求。各存储域间数据流动情况如图4所示。

中小城商行数据中心存储规划实践

图4 各存储域间数据流动情况示意

四、基于存储域的网络规划

1.网络架构设计

在设计实施方面,传统存储采用SAN网络传输数据,而分布式存储则采用IP网络传输(业界关于分布式存储的IP网络规划已非常成熟,本文不再赘述)。对于SAN网络的规划,可根据存储域分别规划出数据存储域SAN、应用存储域SAN、备份存储域SAN以及双中心互联SAN,同时对每个存储域部署完全独立的两路SAN网络,以保障存储SAN的高可用性。基于存储域的网络规划示意如图5所示。

中小城商行数据中心存储规划实践

图5 基于存储域的网络规划示意

2.网络规划原则

在规划SAN网络时应重点遵循以下原则:

一是SAN网络的规模应尽量小,即通过减小SAN网络规模,可以相应减小SAN网络的广播域,从而提高网络的稳定性。

二是SAN网络应尽量避免级联,即一旦级联网络如流量模型设计不合理,会产生流量瓶颈,从而影响SAN网络的性能。对此,可在SAN网络设计时根据网络规模选择合适的SAN网络交换机(包括端口数量),或在SAN网络规模扩大后更换为更多端口的SAN交换机,也可根据存储资源池拆分SAN网络。

三是应设计专门的双中心互联SAN网络(本文中双中心存储数据同步主要通过SVC实现),各存储域的SAN网络在数据中心之间不直接打通,以避免跨中心的相互影响;如双中心的存储数据需要同步,可通过双中心互联SAN网络。

五、总结

当前,伴随银行数字化转型的不断深入,数据成为银行最为重要的核心资产之一,而如何保护数据资产安全、充分发挥数据作用,也随之成为银行IT工作者亟待解决的问题。对此,以数据为核心、基于数据特性的存储规划提供了一种崭新的存储规划思路,基于数据特性的存储规划不仅可满足不同类型数据对存储的不同要求,还有助于降低建设成本,并有效提高存储系统的稳定性和可靠性。实践中,厦门银行已根据上述思路完成了全行的存储规划设计,并制定了相应的实施路径。截至目前,厦门银行已完成数据存储域建设,同时根据存储域完成了对SAN网络的优化升级工作,实际运行效果良好。

来源:《中国金融电脑》文 / 厦门银行信息技术部范永清

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论