一、背景介绍
如何支撑基于海量数据的应用是IT支撑领域面临的巨大挑战,为了解决这个问题,我们首先要把大量数据按照业务场景进行分层,分级管理,具体方案是按照目录设定冷热策略,按照时间设定迁移规则,实现大数据存储的冷热分级。

大数据存储分级方案
二、实施方案
如果把所有数据等同看待,不对数据进行冷热区分,那么会导致把全部数据存放于高性能介质上则成本昂贵,如果全部存放于低性能介质上则业务及时性难以保证。在大数据平台中存储的数据可分为冷数据(特点是存放周期长但访问频率低)、热数据(特点是存放时间短但访问频率高)两类,例如当日、当月的详单、上网日志数据需要被详单查询系统、账务系统、客户行为分析等系统频繁访问,属于热数据。但到下月这些数据被访问频率会急剧降低,甚至不再被访问,属于冷数据。现网比较典型的为上网日志留存平台,根据两部委和集团要求,用户上网日志要保存12个月,12个月中只有最近1个月的数据为热数据。针对这种情况,河南移动IT资源维护室进行专项研讨,最终采用大数据存储分级方案,将冷热数据进行分级存储具有极大的能效价值,即热数据存放于SSD高性能介质以便保证业务性能,冷数据存放于SATA普通性能介质。热数据主要为高IOPS、低时延要求的业务,主要为随机读写频繁的业务。例如:需要提供实时检索能力的月表,需要频繁查询的汇总表,需要频繁查询的天表、月表。冷数据为大容量、低成本、高吞吐量的业务,主要为海量数据的顺序读写和长久保存业务。例如:涉及海量数据存储的原始数据表,写多读少的数据表。
本方案中热数据全部采用SSD高性能介质,冷数据全部采用普通SATA盘。能够实现计算和数据解耦,计算侧对热温冷数据流动无感知。由生命周期管理层负责数据分级的配置和管理,资源池管理层负责不同热度介质资源池的管理。具备以下特征:热温冷统一采用EC存储,最大化存储利用率,从33%提升到91.67%;真正完全兼容原生HDFS语义的EC机制,不用再纠结便宜的第三方存储等协议转换。数据迁移无需目录改变,根据业务自动调整迁移速度,应用层无感知。
分级方案主要包含有以下几点,数据分级:按照目录设定冷热策略,热数据存储到热存储池,温/冷数据存储到温/冷存储池。数据迁移:按照时间设定迁移规则,系统自动比较文件时间信息,将超过时间阈值的文件,自动搬迁到温/冷数据存储池,释放高性能存储资源。资源监控:支持系统管理员分别查询不同的资源池的使用状况,灵活管理和监控热温冷存储池的空间使用情况。
三、实现价值
1、节省投资
对于不用经常被业务系统访问,只需要安全存储下来的冷数据,如果跟热数据一样不加区分,全部存储在高性能介质上,投资将非常昂贵。很多业务场景,例如日志、详单等,数据量大,虽然热数据只有当前月,其余11个月都为冷数据,但是为了保障性能,热数据和冷数据都存放在高性能介质SSD盘上,投资很大,但如果采用大数据存储分级方案,热数据存放在高性能介质SSD盘上,冷数据存放在普通性能介质SATA盘上,进而可以根据业务对数据访问的频繁度和存储量需求,进行不同介质的独立扩容,则能有效节省投资。
在我们的某一重要业务场景中,每月产生60T数据,根据要求需要保存一年内的数据,最近2个月为热数据,剩余10个月为冷数据。一年约产生720T数据,使用SSD节点+SATA节点分级存储方案和全SSD方案对比如图1所示,全闪方案需要47个节点,分级存储方案减少为22节点,对应需要的存储内部通信交换机也从4台降为2台,节省了50%的网络成本,总成本从512万降为214万,共节省了60%投资成本。

图1

图2
2、提高效率
本方案包含冷热数据自动迁移策略,按照时间设定迁移规则,系统自动比较文件时间信息,将超过时间阈值的文件,自动搬迁到温/冷数据存储池,释放高性能存储资源。不增加运维复杂性,对上层业务也无影响,真正实现上层业务无感知。此前对数据不做冷热分级,如果考虑到节省投资将数据全部存放在普通性能介质上,则势必影响整体业务性能。根据本方案对数据进行冷热分级,对于需要被业务系统经常访问的热数据,将之存储在例如SSD盘的高性能介质上,可以有效保障数据的高性能读写,并大大提高上层业务效率。
投稿单位:河南公司

关注微信公众号
“降本增效在行动”
随时关注小伙伴们的动态!
有好建议、好做法、好素材,可整理发送至jbzx@chinamobile.com




