
睿见
内存分布式数据库 RapidsDB,是柏睿数据完全自主研发的实时分析型数据库。其核心技术之一在于内存计算,那么内存数据库是如何发展的?有哪些创新发展和场景应用?生态发展如何?【睿见】“内存数据库漫谈”系列节目,将为你揭开内存数据库的神秘面纱。
柏睿数据咨询顾问杨基将就此展开深入浅出的讲解,与您共话内存数据库。今天,我们将分享“从大规模实时分析应用透视内存数据库发展”。
柏睿数据
杨基 咨询顾问
//
内存数据库漫谈
目录
壹 从大规模实时分析应用透视内存数据库发展
贰 天下武功,唯快不破
叁 快很重要,符合市场需求更重要
肆 数据虚拟化,天下本是同根生
伍 生态发展与技术布道
陆 HTAP的实战业务场景
除先天的性能优势外,独特的存储和索引优势,能完全应对海量数据实时分析和智能决策应用需求,使得内存技术成为支持数字经济高速发展的核心技术基座之一。
数据库诞生于上个世纪60年代,以IBM公司推出的数据库管理产品IMs为标志,从早期的数据存储、查询到联机事务处理, 再到今天的数据挖掘、智能分析;从单纯的数据库发展到并行数据库、分布式数据库,从磁盘式到内存式数据库,随着应用领域的日益广泛和对性能需求的不断攀升,数据库已经成为数字经济发展的核心基础。

如果把数据库比作是有内部规则或者模型的数据容器,容器支持数据写入,也支持数据读取,读写是数据库的基本能力和操作;那么与数据容器交互并支持数据存储的核心组件可称为存储引擎,是数据库性能基础性能提升的关键。
从存储介质上,存储引擎可以划分磁盘式和内存式;从软件算法架构上,存储引擎技术主流可以分为B树机制和LSM树机制,两种机制各具优势和应用特点,分别利用了磁盘特点和内存优势,是目前两大主流算法存储引擎。
传统的数据库MySQL、PostgreSQL、Oracle都采用B树机制的存储算法引擎,其最大好处在于它对数据持续高并发的读取性能处理,即使数据量级增大,它的读也没有放大。而不足之处在于,当持续对数据集进行增加和删除的操作时,一个写操作会造成多个页节点的迁移、变换,大量的写锁操作引成的蝴蝶效应更大,除了占用大量的IO需求外,另一个负面作用是留下大量的页碎片。
LSM机制通常被OceanBase、TiDB等数据库则采用,充分利用了内存的高性能,在内存中开辟了一个空间,写数据优先往内存里面,当内存写入数据达到一定的阈值,内存中的数据以批量、顺序的方式一次性写入硬盘上,内存则重置清零再服务新的数据写入要求。如果读取对象在硬盘上,它保存在固定不变的有序的文件里面,数据文件多,内部有序而外部无序,几乎需要对所有的数据文件做一个全面的遍历,花费大量的计算时间。

无论算法怎么优化都难以消除数据存储读放大和写放大两大缺陷,最有效的解决方案是基于全内存的数据库。它完全基于内存存储,所有的数据全部存储内存当中,并针对意外灾难采取数据记录恢复的辅助技术,保障数据的完整性。
相较于传统数据库用磁盘存储数据,全内存数据库拥有四大明显创新优势:
将内存与磁盘的访问速度对比可知,内存访问速度是纳秒级,而磁盘访问速度是毫秒级,数据处理速度差异高达百万倍。
从而更好地发挥CPU、GPU等现代硬件,而传统的磁盘数据存储则无法实现。
这是因为从磁盘上读取数据时会涉及诸多复杂操作和过程,而从内存访问数据的过程指令集较少,所使用的内存也较少。
例如,列式存储和行式存储,内存数据库能够很容易地在两者之间灵活切换,且可以很容易地实现分层数据模型,甚至矩阵张量数据模型。而对于基于磁盘的存储而言,实现这样复杂的模型是难以想象的。
全内存数据库技术理论兴起于上世纪80年代,因为受限于当时内存硬件价格等原因,以及内存易失性的多种技术挑战,用户更愿意采用价格更低廉的磁盘数据库。
随着近十几年内存技术的发展和价格下降,以及内存数据库持久化存储技术的成熟,成本和安全再也不是限制全内存数据库发展的桎梏,除先天的性能优势外,独特的存储和索引优势,能完全应对海量数据实时分析和智能决策应用需求,内存技术已经成为支持数字经济高速发展的核心技术基座之一。
正是基于全内存数据库的先天优势和广阔应用前景,柏睿数据自2014年成立起,一直致力于内存数据库核心技术的自主研发和产品体系研发,持续推动和完善内存数据库技术。
柏睿数据一直坚持核心基础技术自主创新,RapidsDB不仅有原创性分布式内存存储处理引擎,并针对基于内存存储架构进行设计和优化,具有无磁盘IO、高可扩展、高吞吐、高并发、低时延、节省内存等特性,比传统数据库性能提高百倍甚至千倍。
相较于基于磁盘架构的传统数据库,RapidsDB在内存优化方面有四大显著特性:
分布式横向扩展系统:可以在普通硬件上扩展到数千台机器。
没有缓冲池:不易造成资源争用。
无锁数据结构:使用内存优化的无锁跳过列表作为其索引,允许高吞吐量的高度并发读写,且读取永远不会被阻止。
代码生成:无锁的数据结构很快导致动态SQL解释成为限制查询执行的瓶颈, RapidsDB可将SQL向下编译为本机代码,以获得最高性能。

柏睿数据RapidsDB提供金融电信级数据持久化、数据安全性、系统高可用性的分布式内存数据库,拥有高于传统磁盘架构数据库2个数量级以上的数据读写访问和分析性能,目前大量应用于电信、能源、金融、政务、工业互联网等核心关键业务中,成为企业、政府数智化转型的坚实基座。
推荐阅读








