暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

关于Greenplum数据库

Greenplum分布式数据库 2018-11-11
1785

本文主要是介绍greenplum分布式数据仓库,想了解更多内容请在文章下方留言


  1. 什么是分布式数据库

    随着计算机技术的飞速发展,传统的单机数据库已经难以满足庞大的数据计算和分析,因此,分布式数据库系统(Distributed Database System,DDBS)应用而生。分布式数据库系统最早出现于20世纪70年代,20世纪90年代以来,分布式数据库系统逐渐进入了商用阶段,开始替代传统的关系型数据库,也开始向客户端和服务端发展。

 2. 分布式数据库能干什么

      分布式数据库,采用分库分表方式提供可扩展的服务容量和存储容量,采用数据库代理方式提供数据透明访问及平滑扩缩容能力。而传统单机数据库的问题——容量瓶颈: 随着数据量和访问量的增长,单机数据库会遇到很大的挑战,依赖硬件升级并不能完全解决问题。


      传统数据库容量扩展往往意味着服务中断,很难做到业务无感知或者少感知。当业务数据和访问量增加到一定量时,传统数据库需要依赖特定的高端存储和小型机设备,再加上版权及服务费用,成本快速上升。DBMS分为SQL和NoSQL型。SQL型以各种传统DB为代表(如ORACLE),存储结构化数据;NoSQL系统虽然特性各异(如HBASE),但相对传统DB而言,由于结构化信息的缺失,往往不能做各种关联查询,适用场景更多是主键查询。


     分布式数据库可以降低企业成本:使用廉价X86+廉价存储+开源软件及自研结合的“去IOE”模式 ,相比商业产品大幅节约企业投入。通过实现数据访问节点的动态平滑扩缩容,应对峰值流量。可以更好的支撑未来业务量的快速发展以及各种异常变化,提升业务满意度。

3. 关于Greenplum

    Greenplum的架构采用了MPP(大规模并行处理)。在 MPP 系统中,每个 Segment节点也可以运行自己的操作系统、数据库等。换言之,每个节点内的 CPU 不能访问另一个节点的内存。节点之间的信息交互是通过节点互联网络实现的,这个过程一般称为数据重分配(Data Redistribution) 。


   与传统的SMP架构明显不同,通常情况下,MPP系统因为要在不同处理单元之间传送信息,所以它的效率要比SMP要差一点,但是这也不是绝对的,因为 MPP系统不共享资源,因此对它而言,资源比SMP要多,当需要处理的事务达到一定规模时,MPP的效率要比SMP好。这就是看通信时间占用计算时间的比例而定,如果通信时间比较多,那MPP系统就不占优势了,相反,如果通信时间比较少,那MPP系统可以充分发挥资源的优势,达到高效率。

      

         初次发文,请大家多多支持!!


        欢迎大家在下面评论讨论相关问题!

文章转载自Greenplum分布式数据库,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论