
(本文阅读预计时间:10分钟)
文章转载自公众号:ScaleFlux
作者:洪日华@亚信、罗小波@ScaleFlux
什么是可计算型存储呢?简单来说,指的是带有计算能力的存储设备(通常是SSD),即主机层面能够将一些数据处理的任务交给存储层来做,而不是把数据挪到主机的内存里用主机的硬件资源来处理。
ScaleFlux作为一家可计算型存储厂商,坚信可计算型存储是顺应未来技术发展潮流、是缓解未来数据量爆炸式增长压力的绝佳解决方案之一。一直以来,ScaleFlux积极探索在数据库应用领域中可能的落地场景,在数据库应用领域斩获了良好的应用成果。例如:在MySQL数据库中,在CSD 2000 NVMe SSD产品的"透明压缩"与"原子写"特性加持下,其在高并发、大数据量的应用场景中,普遍能够节省60%以上存储空间,同时还能够为读写性能带来80%以上的提升。
PostgreSQL作为最流行的开源数据库之一,其技术生态向上的发展趋势也不可小觑。因此,ScaleFlux也在积极探索可计算型存储在PostgreSQL中可能的落地场景。
近日获悉,在亚信科技控股有限公司与ScaleFlux的共同努力下,完成了亚信通用分布式事务型关系数据库 "AISWare AntDB" 在 ScaleFlux 可计算型存储 "CSD 2000 NVMe SSD" 上的兼容适配测试、以及在性能与容量TCO等收益上与普通NVMe SSD的对比测试工作。现得出了结论:AISWare AntDB产品可以与CSD 2000 NVMe SSD产品完全兼容,整体运行稳定高效,符合AISWare AntDB的性能与容量收益要求。
注:AISWare AntDB是基于PostgreSQL研发的,相比PostgreSQL,在功能上进行了一些补充、在性能上也进行了增强。AntDB于2020年对某省移动核心客户中心库进行的去O替换,助力客户完美实现了运营商核心业务系统的国产化改造。
1. 相互兼容互认证明

2. 测试目的
此次测试的目的主要在于:
针对AISWare AntDB(以下简称AntDB)数据库在ScaleFlux CSD 2000 NVMe SSD(以下简称CSD 2000)上的运行性能进行测试验证,并以同档次的普通NVMe SSD做对比,验证CSD 2000在自带数据压缩功能的前提下,对数据库性能的实际影响。
评估AntDB数据库在CSD 2000上运行的稳定性、兼容性、以及性能与容量的收益。
3. 测试数据展示
BenchmarkSQL
基准测试工具 BenchmarkSQL 的测试数据表明,在同等测试条件下, CSD 2000相比同档次的普通NVMe SSD产品,能够在节省43.5%磁盘空间的前提下性能高出21.6%。

sysbench
基准测试工具 sysbench 的测试数据表明,在同等条件下,CSD 2000相比同档次的普通NVMe SSD产品,能够在节省67.43%磁盘空间的前提下几乎不损失性能、甚至在部分场景中性能还能够大幅度提高(例如:更非索引更新场景中,性能提高可达58.82%)。
数据初始化耗时(填充因子为100)对比如下:

空间节省(填充因子为100)对比如下 :

性能数据(填充因子为100)比对如下 :

将填充因子从100调整到75时,在2000GB数据规模下,两者在文件系统可见的空间占用上都增长约31.54%,这对于对剩余空间比较敏感的应用十分不友好。由于CSD 2000支持透明压缩,经压缩之后,在CSD 2000中实际的物理空间(存储设备)占用仅增长约5.98%,即CSD 2000能够大大节省存储设备的空间的前提下,还能够兼顾性能几乎不损失、甚至在部分场景中性能还能够大幅度提高(例如:更非索引更新场景中,性能提高可达15.92%)。

4. 合作双方简介
亚信 & AlSware AntDB
亚信科技控股有限公司(股票代码:01675.HK)
亚信科技创立于1993年,依托产品、服务、运营和集成能力,为电信运营商及其它大型企业客户提供业务转型及数字化的软件产品及相关服务,致力于成为大型企业数字化转型的使能者。
AlSware AntDB
AISWare AntDB是亚信科技打造的一款可扩展、多租户、 高可用、高性能、低成本、安全可靠且对业务透明的分布式 金融级大规模并行处理关系数据库产品,采用MPP架构,融 合事务处理和在线分析操作,具备先进的数据治理和数据 安全特性,支撑亿级用户,提供PB级别数据量处理能力。
AntDB提供一站式OLTP,OLAP解决方案,具有横向可扩展,秒级在线扩容的能力,是一款高度兼容Oracle、DB2、MySQL 等语法的多模型产品,具有如下优势:
应用透明:向应用提供完整的分布式数据库,应用无需关心数据分布
用户规模:满足亿级用户规模数据量业务处理的系统建设需求
平滑迁移:支持现有核心业务系统安全、经济、平滑地迁移
高可靠性:代替Oracle等传统集中事务型关系数据库
AntDB分布式架构中,包括计算节点(Coordinator)、数据节点(DB)、全局事务管理器(GTM)和管理节点四种组件,其中蓝色和黄色背景的为有状态的组件,需要考虑容灾,如图所示:

各组件功能说明如下:
计算节点(Coordinator):提供SQL解析、优化、路由、结果汇聚、分布式事务控制等功能
数据节点(DB):真正存储业务数据的组件,通过分库分表实现数据库能力的水平扩展,提供多种分片函数,支持定制开发,支持数据节点的分组管理。
全局事务管理器(GTM):分布式事务管理的重要组件; 提供事务ID和事务快照以及全局序列号、时间戳,参与2PC提供分布式MVCC能力。
管理节点:包括元数据管理、参数配置、其他三种组件的监控与管理等。
ScaleFlux & CSD 2000
ScaleFlux 成立于2014年,是全球可计算型存储技术和产品引领者。拥有存储行业最具创新力和产品经验的团队,由多家一线基金和行业巨头战略投资的核心硬科技公司。ScaleFlux也是首家将可计算型存储产品在中国、美国、欧洲和印度等大型数据中心实现规模化部署的厂商。
ScaleFlux的主打产品CSD 2000是一款与数据库应用场景高度契合的可计算型企业级存储,具备透明压缩、计算下推、原子写等与数据库场景高度契合的重磅企业级特性,能够实现存储TCO大幅下降的同时几乎不额外损耗数据库的性能、甚至在很多数据库的负载场景中还能够大幅提高数据库的性能。
什么是可计算型存储?简单来说,可计算型存储是在原有的存储介质上叠加计算单元,并由该计算单元加速跟存储直接相关的计算任务,从而实现CPU计算任务卸载,其典型的应用场景如下 :
数据路径压缩/解压,其大致的实现逻辑示意图如下 :

数据库计算下推,其大致的实现逻辑示意图如下 :

5. 未来展望
当今时代,我们正处在一个前所未有的数字化转型的进程中,各种新兴技术的产生和使用都会面临着一个共同的问题,那就是数据产生和使用呈爆发性增长,这会给底层的计算和存储的技术带来巨大的挑战。
在过去的几十年中,存储的技术从卡带、到磁盘、到固态硬盘,从容量和性能上都得到了巨大的提升,但其提升的速度远远赶不上数据增长的需求,如果我们把2020年全球存储的产能加起来,大约20ZB(相当于20亿张10TB的硬盘),这已经是比较惊人的产量,但到了2025年,数据的增长大约会达到125ZB,于此同时,存储的产能只能达到22ZB,可想而知这将是存储面临的一个巨大挑战。
Intel的创始人提出的摩尔定律在过去的70年代到00年代长期神奇般的有效,CPU的性能每隔18个月翻一倍、价格下降一半。但是在过去的10多年里,由于CPU的性能提升逐渐接近物理极限,摩尔定律已经逐渐失效,CPU的性能每隔18个月的提升已经不足2倍,与此同时数据的增长量却呈爆发式增长,这种情况下算力也将面临一个巨大的挑战。
当传统的计算与存储的方式难以满足数据增长需求的时候,就必须通过创新来解决计算和存储的效率,要提升计算和存储的效率,最有效的解决方案就是将计算与存储分流,可以将不同的计算类型细分到不同的更加高效的计算引擎里。可计算型存储由此应运而生,将近存储的数据相关的计算量(例如:数据的压缩与解压、数据的过滤、数据的加密与解密等)集成到存储设备内部,不需要额外的设备,这就意味着不需要主机CPU参与,不需要在系统总线中来回拷贝数据,不需要额外占用PCI插槽与额外的供电,同时算力能够随着存储的扩容而线性扩容,甚至能够做到并行计算。
因此,我们完全有理由相信,可计算型存储一定能够很好地为未来5G时代的万物互联、AI、区块链、自动驾驶等新兴技术保驾护航!





新闻|Babelfish使PostgreSQL直接兼容SQL Server应用程序

更多新闻资讯,行业动态,技术热点,请关注中国PostgreSQL分会官方网站
http://www.postgresqlchina.com
中国PostgreSQL分会生态产品
http://www.pgfans.cn
中国PostgreSQL分会资源下载站
http://postgreshub.cn


点击此处阅读原文
↓↓↓




