
本文主要是介绍greenplum分布式数据仓库,想了解更多内容请在文章下方留言
什么是分布式数据库
随着计算机技术的飞速发展,传统的单机数据库已经难以满足庞大的数据计算和分析,因此,分布式数据库系统(Distributed Database System,DDBS)应用而生。分布式数据库系统最早出现于20世纪70年代,20世纪90年代以来,分布式数据库系统逐渐进入了商用阶段,开始替代传统的关系型数据库,也开始向客户端和服务端发展。

2. 分布式数据库能干什么
分布式数据库,采用分库分表方式提供可扩展的服务容量和存储容量,采用数据库代理方式提供数据透明访问及平滑扩缩容能力。而传统单机数据库的问题——容量瓶颈: 随着数据量和访问量的增长,单机数据库会遇到很大的挑战,依赖硬件升级并不能完全解决问题。
传统数据库容量扩展往往意味着服务中断,很难做到业务无感知或者少感知。当业务数据和访问量增加到一定量时,传统数据库需要依赖特定的高端存储和小型机设备,再加上版权及服务费用,成本快速上升。DBMS分为SQL和NoSQL型。SQL型以各种传统DB为代表(如ORACLE),存储结构化数据;NoSQL系统虽然特性各异(如HBASE),但相对传统DB而言,由于结构化信息的缺失,往往不能做各种关联查询,适用场景更多是主键查询。
分布式数据库可以降低企业成本:使用廉价X86+廉价存储+开源软件及自研结合的“去IOE”模式 ,相比商业产品大幅节约企业投入。通过实现数据访问节点的动态平滑扩缩容,应对峰值流量。可以更好的支撑未来业务量的快速发展以及各种异常变化,提升业务满意度。

3. 关于Greenplum
Greenplum的架构采用了MPP(大规模并行处理)。在 MPP 系统中,每个 Segment节点也可以运行自己的操作系统、数据库等。换言之,每个节点内的 CPU 不能访问另一个节点的内存。节点之间的信息交互是通过节点互联网络实现的,这个过程一般称为数据重分配(Data Redistribution) 。
与传统的SMP架构明显不同,通常情况下,MPP系统因为要在不同处理单元之间传送信息,所以它的效率要比SMP要差一点,但是这也不是绝对的,因为 MPP系统不共享资源,因此对它而言,资源比SMP要多,当需要处理的事务达到一定规模时,MPP的效率要比SMP好。这就是看通信时间占用计算时间的比例而定,如果通信时间比较多,那MPP系统就不占优势了,相反,如果通信时间比较少,那MPP系统可以充分发挥资源的优势,达到高效率。
初次发文,请大家多多支持!!
欢迎大家在下面评论讨论相关问题!




