关注点 | 基于华为超融合的方案设计实践

戏说数据那点事 2022-05-13

4328

【摘要】伴随着财务公司业务的发展，业务系统对网络资源、计算资源、存储资源有了更大的需求。考虑目前财务公司IT现状的同时，新搭建超融合架构的服务器集群，满足银金融外联区的运行需求。本文结合某财务公司的实际案例着重介绍超融合基础环境落地实施的方案设计。

【作者】田欣，某央企财务公司信息技术高级工程师，从业经验12年+，长期负责数据中心IAAS和PAAS架构设计与实施、负责系统业务连续性建设工作，擅长虚拟化、云计算、数据库相关技术和运维服务体系建设。

1. 概述

1.1. 项目背景

某集团财务公司是集团控股的非银行金融机构，是集团资金归集平台、集团资金结算平台、集团资金监控平台、集团金融服务平台，为集团及下属成员单位提供存款、贷款、代理支付、内部转账、供应链贸易融资、外汇结售汇、个性化资金管理子平台、投资顾问等金融服务，促进资金效率提升、降低财务成本，加强集团对资金流的风险监控。

近年来，随着集团整体不断发展壮大，成员单位数量不断增加，运用新的技术手段提升运营能力愈发迫切。金融外联系统作为财务公司对外服务的重要窗口，由网上银行、移动终端、银企直联、财企直联等渠道层应用组成，渠道层应用对交易和数据的强实时一致性要求不高，更多的是采用分布式中间件、微服务框架，按照业务渠道构建高内聚低耦合的组件化服务，以实现快速响应流量变化、提高运行可靠性。以当前流量估算，虚拟机资源需要21台，但随着接入单位的增加，资源消耗快速增长，系统整体的横向扩展能力亟待提升。

同时，随着金融科技风险不断暴露，金融监管部门对信息科技的监管体系日益完善，对信息系统安全性、稳定性要求进一步提高。现有硬件与存储资源已近饱和，存储设备存在老化现象，磁盘故障率增长。为提升业务连续性指标，急需重构数据存储容灾技术方案，以满足监管要求；为更好地服务集团及各成员单位，为企业数字化提供技术支撑，满足信息科技的监管要求，打造一个安全、稳定、可靠、高效的核心基础平台成为财务公司信息化建设的重点。

1.2. 当前基础架构情况

原生产环境是以 X86 虚拟化为主的资源区，随着业务系统的快速增多，现有架构的已无法灵活扩展资源。原生产环境机构图如下：

原生产环境资源存在的问题主要集中在以下几点：

1、系统运维效率需要提升

现有系统架构采用VMware + FC SAN传统架构，基础设施架构维护大量占用变更窗口。如扩容存储系统，要停机、添加磁盘、磁盘初始化等一系列操作。如扩展计算资源，要进行手动均衡、物理服务器添加、虚拟化软件安装配置等操作。

2、业务连续性需要提升

现有集中式存储采用RAID5方案，设备使用年限长，如出现故障数据丢失风险较大，且修复故障所需时间较长。维护虚拟化集群设备工作量大，为避免系统数据丢失，维护作业一般需要先把整个系统全部停机，严重影响生产系统的业务连续性。如集群X86服务器出现单点故障，在集群资源配置不当的情况下，易产生连锁反应，造成集群性能明显下降。

3、系统部署时效需要提升

现有金融外联系统基础环境无法快速响应业务变化，渠道层应用的快速扩展不仅要求IT资源快速上线，也要求服务的快速响应。现有的基础环境架构在快速扩容和维护便利等方面的表现不尽如人意。

4、系统资源利用率需要提升

现有集中式存储设备相对昂贵，存储架构一旦落地部署成型，后续扩展性较差。当出现高并发、大容量文件存储等情况的时候，容易受到硬件性能与容量限制。现有数据量增长迅速，如何构建一个统一可弹性扩展的存储池，将计算、内存资源通过虚拟化的方式组成资源池，响应业务系统快速扩展要求，是摆在我司面前一项现实而紧迫的任务。

1.3. 建设目标

采用集数据计算、存储、网络等资源于一体的超融合技术架构搭建IT基础设施，实现系统资源便利部署、高效稳定，提升运维效率。提高财务公司整体的数据处理能力和系统资源储备。不仅满足传统网络架构云资源模式的IaaS、PaaS，还可以满足向下兼容，资源弹性伸缩，数据多副本冗余。在满足当前系统建设对服务器的需求的同时，为未来信息系统的建设发展提供一个灵活的、快速响应的、稳定可靠的服务器基础环境，最终实现系统资源横向的灵活扩展，增强业务连续性保护，较好的满足业务系统稳定安全运行要求。

结合以上情况，本项目的建设目标主要包括以下几个方面：

1、为金融外联系统规划超融合平台环境，提供相关服务器基础软硬件资源。

2、运维管理区增加超融合环境覆盖。

3、针对现网结构进行整体网络优化设计改造，包括运维管理区网络改造、金融外联区超融合网络建设等。

1.4. 建设原则

IT基础设施平台建设需做到合理化、规范化和科学化，以应用为先导、统一规划，集中管理，在满足应用系统架构设计需求和业务数据对计算存储资源功能和性能需求的前提下，通过资源的统一分配和部署，结合超融合技术，最大化地提高资源的灵活性和利用率，满足应用业务需求扩充与资源部署变更的发展需要。

本次项目按照以下原则进行设计：

1、以系统的高可用性为原则。整个虚拟化平台的规划建设要满足高可用要求，包括服务器硬件、网络等方面不能存在单点故障风险。

2、以具备良好的扩展性为原则。虚拟化平台在规划和建设时，需要考虑其扩展能力，在计算资源和存储资源不足时，能够平滑进行扩展。

3、以确保安全性为原则。一是确保数据安全，出现单点故障不能出现数据损坏或丢失；二是确保网络安全，按照服务器的安全等级划分安全域，并且配置网络访问策略。

4、以技术先进性为原则。在技术路线选择和产品的选型方面，要充分考虑其技术先进性，能够代表当今技术的主流发展方向。

5、以技术可靠性为原则。在技术路线选择和产品的选型方面，要充分考虑技术的可靠性，选择技术成熟、运行稳定的技术方式。

6、以合理的性价比为原则，虚拟化平台的建设要结合公司信息系统的实际情况，合理制定建设方案，避免不必要投入。

7、以优先采用安全可控信息技术为原则。在能够满足项目需求的情况下，优先选择国产技术和产品。

2. 技术选型

我司的数据中心基于VMware + FC SAN传统虚拟架构，生产环境整体架构已完全成型。以超融合架构替代生产环境基础架构，为避免造成现有系统运行发生风险，影响业务系统稳定运行，超融合架构在使用前，须进行充分测试，且按系统级别逐个进行部署与切换。因此，我司联合集成服务商对传统架构和超融合架构进行了比较，并对各类超融合产品进行分析。

2.1. 传统架构和超融合架构的对比

传统架构和超融合架构通过可维护性、可扩展性、可靠性 3 个方面进行比较，具体比较情况见下表。

比较项	超融合架构	传统 FC SAN架构
可维护性	计算资源存储资源融合部署于同一节点服务器；标准X86服务器和万兆交换机；	计算资源与存储资源分离；专用存储硬件和网络
可扩展性	分布式架构，支持横向扩展；统一资源池，按需分配，自动均衡；	控制器集中架构；存储控制器存在性能瓶颈；
可靠性	多副本，纠错码（EC），数据丢失风险小；硬件故障时数据重建速度快；	集中存储，磁盘损坏数据丢失风险大；硬件故障时性能下降严重；

综合来看，超融合架构变革更多是基于分布式存储对传统存储的替代，结合虚拟化部署方式，实现基础环境的动态扩展、快速交付，进一步简化了IT架构，降低了使用成本和运维难度。分布式存储可以采用多副本机制，数据副本分散在不同的节点服务器，当一个节点数据出现损坏，其他节点仍可以提供服务，保障了数据安全性，维持了业务连续性。分布式存储也可以采用纠删码方式来保证数据的可靠性。相对三副本，EC数据冗余保护机制在提供高可靠性的同时也能够提供更高的磁盘利用率，比如4+2纠删码的利用率是66%，可用容量是三副本冗余的2倍。

2.2. 超融合产品选型

HCI厂商给用户提供的产品形态一般有两种：纯软件方案和一体机方案。采用超融合软件方案，用户可以基于超融合软件和自己选定的 X86 、ARM 等架构通用服务器硬件构建超融合基础架构；采用超融合一体机方案，厂商根据客户的需求，和自身的产品策略，为用户提供的开箱即用一体机，超融合一体机 = 超融合软件 + 厂商选定并适配的 X86 、ARM 等架构通用服务器。采用超融合一体机的好处是使用方便，开箱即用，部署快捷方便，软件与硬件配套性较好，稳定性强，安全可靠。出于降低维护和服务支持的复杂度的考虑，我司对4家超融合一体机厂商情况开展了调研。

产品	Nutanix 联想X86	SMARTX Halo	华为 FusionCube 1000	深信服 aServer
软件架构	Nutanix	ZBS	华为分布式存储	基于Ceph
集群主机数	>=3	3-255	3-256	2-1024
资源消耗	4cores	3-4cores	>= 4cores	8cores
分布式存储副本	2-3	2-3	2-3	2-3
EC 支持	EC-X	不支持	N+2	不支持
NVMe SSD缓存	支持	支持	支持	支持
虚拟化平台支持	VMware、Kvm、Hyper-V	VMware、Xen	VMware、Kvm	VMware、Kvm
运维管理	Prism	SMTX OS	FusionCube Center	acloud

从简便运维和软硬件统一管理的角度考虑，我司决定采用华为超融合。华为超融合在策略上，不采取平台锁定，实现了广泛的平台支持，不仅支持华为FusionSphere、VMware、KVM等主流的虚拟化平台，还可以支持SAP HANA、Oracle、IBM DB2、Sybase等主流数据库平台。FusionCube采用全对称分布式架构，内嵌分布式存储引擎，元数据均匀分布在所有节点，无单独元数据节点，消除了性能瓶颈。FusionCube在节点间采用IB互联，RDMA等技术解决IO瓶颈。同时，FusionCube还采用NVMe SSD，不仅具备PCIE SSD的高性能，同时具有SATA硬盘的热插拔和即插即用特性，没有运动部件，相比SATA盘年化故障率大幅降低。提供了图形界面的安装方式和超统一的管理界面，部署时间最短能降低到11分钟，更能方便地实现端到端的统一管理、配置和监控，实现一个管理界面管理所有软硬件资源。

3. 方案设计

3.1. 整体规划原则

对金融外联系统及应用平台的基础环境采用超融合方案改造，通过SSD加速，采用多副本技术存储虚拟机。按照每台虚拟机800G硬盘、内存32G、8核CPU，考虑平台冗余，整个超融合集群可部署大约28台虚拟机。

3.2. 群硬件规划

项目

型号

节点详细配置

数量

超融合一体机

FusionCube 1000

2288H V5

处理器：2x英特尔^® 至强^® 金牌 5220R(2.2GHz/24-Core)内存：512GB（16*32GB） *硬盘：2块600GB SAS系统盘，2块1.6T NVMe加速盘，8块4TB 7200转SATA数据盘网络：9个10GE光接口（含模块） 2个GE（RJ45）接口；阵列：1块SR150-M(Avago3408) SAS/SATA RAID卡RAID0,1,10-12Gb/s-no Cache；

3台

交换机

CE6820-48S6CQ

48*10G SFP+,6*100G QSFP28,2*交流电源

4台

3.3. 集群软件规划

组件	基线	软件包	备注
FusionCube	FusionCube 6.0.5.SPC100	FusionCube 6.0.5.SPC100_Builder.ova	FusionCube Builder虚拟机系统镜像安装包
FusionCube 6.0.5.SPC100.zip	用于安装FusionCube的管理软件。
FusionCube 6.0.5.SPC100_Driver.zip	用于安装FusionCube所需各种驱动。
FusionCube 6.0.5.SPC100_Tools.zip	工具类文件。
华为分布式存储	华为分布式存储 8.0.1.SPH602	华为分布式存储_8.0.1.SPC600.tar.gz	用于安装华为分布式存储存储软件。
华为分布式存储_OS-V2.0SP5-X86_64-dvd.iso	用于安装FCC虚拟机节点操作系统镜像安装包。
FusionCompute	FusionCompute 8.0.1	FusionCompute_CNA-8.0.0-X86_64.iso	用于部署X86架构服务器 FusionCompute 8.0.0（KVM）计算节点和管理节点。
FusionCompute_VRM-8.0.0-X86_64.iso
FusionCompute_Installer-8.0.0.zip
FusionCompute 8.0.1_Upgrade.zip

3.4. 集群资源规划

整体可用资源规划：

资源类型	资源总量
CPU:	共计 288核
内存：	共计1536 GB
存储池裸容量：	EC4+2设计下，可使用约：46TB

本次项目计划部署实施3节点超融合集群，考虑到集群冗余性机制，为避免集群节点故障造成的虚拟机故障：

资源项目	资源预留建议
按照集群冗余性考虑，3节点集群，建议不超过各集群资源的75%
集群CPU资源预留：	集群总CPU资源的25%
集群内存资源预留：	集群中内存资源的25%
集群存储资源预留：	集群中存储资源的20%

FusionCube出厂时会预安装CNA、VRM、FusionManager、华为分布式存储 Manager和FusionCube Center等部件，每个部件占用资源如下：

管理VM	vCPU（max）	MEM（GB）	Storage（GB）
FusionManager(GMN)	4	6	80
VRM	4	5	80
华为分布式存储 Manager	4	16	160G
FusionCube Center	4	16	160G

3.5. 网络规划

带外管理负责服务器远程管理与配置，使用服务器自带管理端口，每台服务器一个端口，分配带外管理IP地址后，可远程控制。

两台管理交换机用于集群中各服务器间的数据交互，要求必须使用万兆以太网络接入，建议使用低交换延时以太网交换机。业务网络交换机间配置级联或堆叠，以实现链路冗余性。

管理平面用于管理集群各节点服务器，每节点使用两块千兆以太网口，分别连接两台管理交换机，两个接口组成bond，以实现链路冗余。

业务平面用于虚拟机对外提供访问，每个节点使用两块万兆以太网口，分别连接到业务网络的交换机上，两个接口组成bond，以实现链路冗余。

存储平面用于华为分布式存储内部通信，每个节点使用两块万兆以太网口，分别连接到两台管理交换机，两个接口组成bond，以实现链路冗余。

设备端口示意如下：

IP地址需求：

管理平面
节点类型	VLAN	服务器台数	BMC IP地址数	管理IP地址数
MCNA	10	2	2	2
SCNA	10	1	1	1
管理VM
虚拟参数	VLAN	数量	主备ip合计数	浮动ip数
FusionCube Center	10	2	2	1
Fusion Computer	10	2	2	1
业务平面
虚拟	VLAN	ip数量
USER VM	11	254

3.6. 华为分布式存储规划

配置3台超融合主机，每个主机预留一个华为分布式存储存储IP，用于不同主机间华为分布式存储存储池网络流量。每台主机配置2块600GB SAS系统盘；采用SSD磁盘作为数据缓存，每台主机配置2块1.6T NVMe加速盘，提升超融合集群IO性能；每台主机配置8块4TB SATA数据盘，采用EC4+2冗余存储配置，去除虚拟化平台必要的存储开销，可供虚拟机使用的空间大概45.8T左右。

各节点存储规格如下：

节点类型	主存规格	缓存规格
MCNA	8*3726G SATA_DISK	1*2980G SSD_CARD
MCNA	8*3726G SATA_DISK	1*2980G SSD_CARD
SCNA	8*3726G SATA_DISK	1*2980G SSD_CARD

EC（纠删码）是提高存储系统数据可靠性的一项编码技术。写入的对象被拆分为 K 个数据块，然后编码生成 M 个校验块，总共 K+M 份数据通过DHT 算法分别存入不同硬盘中。当系统出现故障，丢失了某些块时，只要这个对象丢失的块数目不超过 M，就可通过数据恢复算法，将丢失的数据块从剩余的块中计算出来。在这种方式下，空间的利用率约为 K/(K+M)，数据的可靠性由 M 值的大小决定，M 越大可靠性越高。EC4+2相比EC2+1，虽然能容忍节点故障数量仍然是1个，但它可以允许2个节点分别有1块硬盘故障（总计2块硬盘故障）而数据不丢失。而实际情况下，硬盘故障的概率是远远低于整个节点故障的，所以EC4+2还是非常可靠的，在空间利用率上也远高于三副本，三副本的得盘约为33.3%，EC 4+2的得盘率约为66.6%。

存储池配置如下:

存储池	冗余策略
华为分布式存储	EC 4+2

3.7. 用户设置规划

分类	用户设置
2288H V5	登录iBMC的用户名和密码
FusionCube Builder	登录FusionCube Builder OS的用户名和密码
使用WinSCP上传软件包到FusionCube Builder时使用的用户名和密码
登录FusionCube Builder WebUI的用户名和密码
FusionCube Center	登录FusionCube Center OS的用户名和密码
使用WinSCP上传软件包到FusionCube Center时使用的用户名和密码
登录FusionCube Center WebUI的用户名和密码
华为分布式存储	登录华为分布式存储 DeviceManager的用户名和密码

3.8. 部署安装

安装流程如下：

4. 实施经验

4.1. 华为分布式存储容量计算

1、多副本冗余方式

华为分布式存储大概容量=所有用于数据盘的磁盘容量总和/副本数，因华为分布式存储的元数据会占用一部分空间，实际的有效容量会比这个值小。

具体计算方法如下：

单盘的有效容量(TB) = ((z*0.91)-p*r/1024)*q/k

华为分布式存储有效容量=单盘的有效容量*总盘数。

1) z=盘或SSD卡标称容量(TB)。其中盘或卡的标称容量z为GB时,需转换为TB(GB/1000)。

2)r=华为分布式存储 OSD开销(GB)。华为分布式存储 OSD开销固定为20.7GB。

3)p=主存对应的OSD进程数。主存对应的OSD进程数p，不同的介质p取值不同，HDD盘和SSD盘，1个硬盘上运行的OSD进程数固定为1，SSD卡做主存时，p=（卡的容量/600G）向上取整。

4) k=副本数，副本数为2副本或者3副本，根据实际项目配置进行计算。

5) q=磁盘空间利用率，该值固定为0.95

2、纠删码冗余方式

存储池可得容量=裸容量* 0.909 （进制转换）*（1-预留比率）* 冗余利用率 * (1-DIF特性消耗) * 重删压缩比

1）冗余利用率：EC配置为N+M时冗余校验空间占比为M/（N+M）

2）HDD盘按照需要按照每64K占用1K、非SAS SSD盘按照每64K占用4K进行扣除，NVMe SSD盘不占用

3）重删压缩比：华为分布式存储 block 估算授权默认使用1.4的重删压缩比

4.2. 应用系统迁移

由于金融外联系统要求7*24小时服务，在切换到超融合环境后，需要将SAN存储的数据迁移到华为分布式存储上。为尽量减少切换带来的影响，可对应用程序、存储数据分别采用不同策略进行迁移。

1、SAN存储数据建议使用第三方工具进行迁移。例如Oracle GoldenGate，IBM Data Replication Management，可以实现在线不停机迁移数据。但是业务系统切换需要停机窗口，但是时间会很短。

2、对于应用系统程序，如系统架构不是很复杂、系统节点间关联性不强、节点数量不高的情况下，可采用重新在超融合部署应用系统程序，重新部署能比较好的兼容超融合环境，但整体迁移工作耗时会比较长。但面对规模比较大的系统迁移工作，还是采用迁移工具比较稳妥，例如Rainbow，可以降低整体业务的迁移时长，支持并发性迁移，多次数据同步功能保障数据一致性，同时支持迁移过程中数据加密传输，避免数据被窃取非法利用。

3、最好不要迁移与硬件绑定的业务系统。业务系统能用离线迁移尽量就用离线迁移。迁移后，业务系统切换完，不要立刻删除原系统资源，以便回退操作。为保障迁移保证数据完整性，业务验证需要业务应用厂商支撑。

5. 总结

金融外联系统超融合基础环境部署实施后，相关系统虚机及数据也已顺利切换到超融合平台，当前业务运行平稳。在基础环境运维效率、基础资源利用率、业务连续性等方面得到了显著提升。

其主要体现在以下几个方面：一是空间资源集中化，最大化减少空间占用；二是运维管理统一化，一个界面统一软硬件管理；三是交付便捷化，大幅压缩了从设计到交付的周期；四是数据安全提升，多副本、跨节点备份的方式实现了数据的可靠性提升。

点击文末阅读原文，可以到原文下留言交流
觉得本文有用，请转发、点赞或点击“在看”，让更多同行看到

转文至此。

以下是个人微信公众号，欢迎关注：

分布式存储系统集群技术服务器虚拟化分布式架构节点服务器

文章转载自戏说数据那点事，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

关注点 | 基于华为超融合的方案设计实践

1. 概述

3. 方案设计

4. 实施经验

5. 总结

评论