暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Vast+产品展厅 | Vastcube G3000 数据库一体机核心技术之-存储分层管理

海量数据 2024-02-28
214


-导语-

Vastcube G3000 数据库一体机数据分级存储特性,可以将数据按照指定的规则自动存储在不同的位置,以达到对数据进行分类智能管理的目的。Vastcube G3000系列的数据分级存储特性为命名空间或者Dtree设置存储策略,自动或手动将数据存储到不同的存储介质上,使数据可以根据存储策略在不同的分级之间迁移,从而满足用户对文件处理性能、存储容量和成本的多样需求,以达到合理利用存储空间、提升存储系统访问性能、降低总体部署成本的目的。


在vastbase中分区表支持创建本地分区索引,该索引的特征是针对每一个“数据”分区,单独创建一个分区的索引,分区的索引中只包含对应分区中的数据,最终可以理解为本地分区索引也是一个“分区表”,分区规则与分区表一致。在查询的数据值涉及到少部分的分区时,通过本地分区索引可以有效提高查询效率。


PART 01

数据分级存储原理


分级存储是基于硬盘池的,即命名空间的数据可以在硬盘池之间迁移流动。存储空间被分为热、温、冷三个等级,每个等级可包括若干个硬盘池。同一存储等级内部多个硬盘池间系统自动实现负载均衡,其中包括压力分区均衡和容量均衡。

设置存储空间为热、温、冷三个等级推荐如下:


主存为“SSD盘”或“SSD卡&NVMeSSD”时,硬盘池的分级等级为“热”。


主存为“SAS盘”时,硬盘池的分级等级为“温”。


主存为“SATA盘”时,硬盘池的分级等级为“冷”。

访问热度较高的数据,建议关联到分级等级为“热”的硬盘池,保证系统对热点数据访问的响应速度,提升整个系统的存储性能。访问热度较低的数据,建议关联到分级等级为“温”或“冷”的硬盘池,有效降低部署和维护成本。



PART 02

分级存储容量分配策略


创建文件系统时,存储层为文件系统分配初始容量的策略。


自动分配

按照性能层和容量层的可用容量比自动为该文件系统分配容量。只有当性能层和容量层的容量不足时才从高性能层分配容量。


优先从高性能层分配

在高性能层上分配容量,如果高性能层容量不够,则按照规则从其他存储层上分配容量;如果某个存储层容量不足,则按照如下分配调整规则进行分配:性能层 > 容量层。


优先从性能层分配

在性能层上分配容量,如果性能层容量不够,则按照规则从其他存储层上分配容量;如果某个存储层容量不足,则按照如下分配调整规则进行分配:容量层 > 高性能层。


优先从容量层分配

在容量层上分配容量,如果容量层容量不够,则按照规则从其他存储层上分配容量;如果某个存储层容量不足,则按照如下分配调整规则进行分配:性能层 > 高性能层。



PART 03

数据分级存储迁移策略


数据分级存储策略可以帮助文件实现在SSD和HDD(SAS或NL-SAS)盘间的迁移。为了满足业务多样化、配置灵活以及绿色节能的需求,数据分级存储策略设计了两种迁移模式:自动迁移和自定义迁移(包含每周、周期、立即迁移三种调度类型)。


自动迁移

由于用户的业务场景复杂多样,当用户对业务模型和数据状态无法获得足够的信息时,就会面临着迁移策略难以制定的问题。


而自动迁移模式简化了用户配置,将文件系统的初始分配策略修改为SSD并对SSD的利用率进行监控,用户无需配置复杂的策略就可以根据文件的冷热程度进行归类:


当SSD的利用率较高时,自动将最冷的文件迁移到HDD,热文件保留在SSD;当SSD利用率较低时,将最近3天访问过的文件回迁到SSD。保证SSD的利用率在一个较为合理的水位。并且也会根据系统的负载情况,动态的调节扫描、迁移速度,最大限度的消除对主机业务的影响。自动迁移原理如下:


按照文件存放介质和访问时间进行分类

SSD上的文件按照访问时间(每3天分为一类,以此类推,180天以上归为一类。)间隔进行分类。


HDD上的文件(默认物理大小20MB以下的文件)最近3天访问的归为一类。


存储系统实时监控SSD利用率,当SSD利用率过高或者过低时启动文件迁移。

当SSD利用率超过80%时,SmartTier会按照时间分类由远及近迁移文件,直至SSD利用率降低到60%停止迁移。


当SSD利用率低于60%时,SmartTier会根据介质和访问时间把位于HDD盘并且最近三天访问过的文件迁移到SSD(若没有满足条件的文件时,暂不启动回迁,待有文件时再启动回迁),直至SSD利用率提高到60%。



自定义迁移

数据分级存储自定义迁移会经历文件扫描、文件策略匹配、文件迁移三个阶段。存储系统可以按照文件的大小、文件名称、文件扩展名、访问时间、修改时间等将文件进行分类。


当用户对文件模型以及数据状态比较了解时,可以根据文件分类自定义设置文件迁移的规则,比如将指定大小的文件或者指定文件名称的文件根据实际的业务需求将文件迁移到低速的HDD盘或者高速的SSD盘。若主机下发的文件不满足用户当前制定的条件,文件将按照容量初始分配策略分配到相应的存储层。自定义迁移的流程如下:

存储系统通过inode信息判断写入策略和迁移策略。新建文件时,文件系统会采用用户配置的容量初始分配策略来填充文件的inode信息。


文件创建成功后,协议分层模块会异步扫描文件是否匹配用户的配置的规则,如果期望介质与容量初始分配策略一致,则inode的信息保持不变。如果不一致,则根据规则修改inode信息。


因为扫描是异步的,因此在修改inode信息之前部分文件数据按照默认的规则分配,后续写入的文件数据按照最新的规则分配。


部分文件数据分配在SSD盘,部分文件数据分配在HDD盘,文件状态标记为Partial。当存储系统后台周期扫描触发后,发现文件状态为Partial并且匹配用户指定的规则,空间分层模块完成对部分数据的迁移,并修改文件状态为Complete。


示例:用户为文件系统Filesystem001配置了如下两种策略,


策略1:访问时间大于一周动态迁移到HDD盘。


策略2:文件扩展名为JPG的文件写到SSD盘。


容量初始分配策略:优先从性能层分配,即优先分配到HDD盘。


1

当主机下发一个1.JPG的文件时,文件系统采用默认的容量初始分配策略(HDD)填充inode信息,写入策略和迁移策略都为HDD,状态填充为Complete。

2

文件创建成功后,协议分层模块异步扫描文件,且与策略2匹配,文件系统Filesystem001修改inode信息(写入策略为SSD,迁移策略SSD,状态为Partial)。

3

由于该扫描是异步的,扫描前采用未修改的写入策略写I/O到HDD盘,扫描后采用新的写入策略写I/O到SSD盘。

4

当文件周期扫描启动后发现文件状态为Partial且匹配策略2,则把HDD盘数据迁移至SSD盘,迁移完成后修改inode信息(写入策略SSD,迁移策略SSD,状态为Complete)。

5

一段时间后,文件周期扫描启动并与策略1相匹配,文件迁移至HDD盘,并修改inode信息(写入策略SSD,迁移策略HDD,状态为Complete),以保证新写入数据的性能。

6

新数据写入并按照写入策略SSD分配介质,系统修改inode的信息(写入策略SSD,迁移策略HDD,状态为Partial)。

7

文件周期扫描启动后发现文件已经一周未访问,且状态为Partial、迁移策略为HDD,迁移数据到HDD盘。



PART 04

应用场景


数据分层存储管理可以应用于各种业务环境。下面以金融票据影像场景为例。


某企业金融票据影像业务使用数据分级存储特性前后的采购成本如下所示。


使用数据分层存储特性前后的采购成本对比

应用数据分层存储特性后该企业节省约25%的硬盘采购成本。该企业的冷数据越多,节省的硬盘采购成本相应越多,如下所示。


某企业硬盘采购成本示意图

由于空闲数据存储在NL-SAS硬盘,高性能的SSD硬盘存储空间得以释放,该企业的更多繁忙数据将存储在SSD硬盘。SSD硬盘能为繁忙数据提供更短的响应时间、更高的IOPS,从而提高存储系统性能。




• END •


关于海量数据


北京海量数据技术股份有限公司(股票代码:603138.SH)成立于2007年,是国内首家以数据库为主营业务的主板上市企业。公司十余年来秉承“专注做好数据库”的初心,始终致力于数据库产品的研发、销售和服务。核心产品海量数据库Vastbase系列、数据库一体机Vastcube系列、海量大数据Datalink系列,全栈国产化,应用满足度高,目前广泛应用于政务、制造、金融、通信、能源、交通等多个重点行业,已成为国产企业级数据库的首选之一。



文章转载自海量数据,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论