巨杉 Tech | SequoiaDB 数据域及存储规划
1 背景
近年来,企业的各项业务发展迅猛,客户数目不断增加,后台服务系统压力也越
来越大,系统的各项硬件资源也变得非常紧张。因此,在技术风险可控的基础上,
希望引入大数据技术,利用大数据技术优化现有 IT 系统实现升级改造,搭建一
个统一存储和管理历史、近线数据的服务平台,同时能够对外支持高并发、低延
时的数据查询服务,以提高 IT 系统的计算能力,降低 IT 系统的建设成本,优化
IT 系统的服务体系,为各个业务部门提供更加优质的 IT 服务。
这类服务平台在整个 IT 系统架构中实质上是一个为核心业务系统减负的系统。
SequoiaDB 巨杉数据库支持海量分布式数据存储,并且支持垂直分区和水平分
区,利用这些特性可以将历史、近线数据存储到 SequoiaDB 中,并能够对外支
持高并发、低延时的数据查询服务。本文主要讲解如何利用巨杉数据库域的特性
在历史、近线数据应用场景下进行存储规划已满足业务系统对性能、存储、维护
等方便的要求。
2 相关概念
多维度数据分区
SequoiaDB 支持水平和垂直方式分区。采用散列(hash)或范围(range)水平分区
是将数据分布至多个节点,加大数据吞吐量, 加速数据查询和写入;采用范围
(range)垂直分区是在一个节点内将数据逻辑划分为多个区间,每个区间作为
独立的存储单元,减少查询时网络 I/O, 进一步加速查询。
水平分区
散列水平分区,原理是将选择的分区键进行 hash 运算,根据 hash 值将数据分
发至相应分区。范围水平分区则是直接匹配分区键和所对应的范围,存放到相应
的分区。两种分区方式各有适用的场景,和运行的业务息息相关。一般不建议采
用范围水平分区,除范围分区键(如月)能保证数据均衡(如每月的数据量级一
致)。如图 2-1 所示。
评论