近几年国内大数据行业迅速发展,社会上对于大数据方面的技术和人才需求越来越大。目前市面上所使用的大数据分析软件系统架构,主要分为MPP架构和Hadoop架构。基于此我做了关于GBase 8a MPP数据库与市面上常用的大数据分析数据库软件进行了简单的比较,以供参考:
MPP数据库和Hadoop大数据平台的差异
MPP代表大规模并行处理,这是网格计算中所有单独节点参与协调计算的方法。 是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果。 MPP DBMS是建立在这种方法之上的数据库管理系统。在这些系统中的每个查询都会被分解为由MPP网格的节点并行执行的一组协调进程,它们的运行时间比传统的SMP RDBMS系统快得多。该架构的另一个优点是可扩展性,因为可以通过添加新节点扩展网格。为了能够处理大量的数据,这些解决方案中的数据通常在每个节点只处理其本地数据的方式在节点(分片)之间分割。这是一种完全无共享(Share Nothing)结构,因而扩展能力最好,理论上其扩展无限制,目前技术上可实现512个节点互联,数千个CPU。MPP有对SQL的完整兼容和一些事务处理功能,如果数据扩展需求不是特别大,数据都是结构化数据,习惯使用传统RDBMS,可以选择MPP数据仓库。
目前有很多关于hadoop技术栈与MPP数据仓库的讨论与对比,很多观点认为hadoop可以替代MPP,但是从下表的比对可以看出两者的差异,对于不同的场景以及MPP技术的发展,应该还是处于并存的状态。另外,基于复杂的数据场景下,混合框架的使用,也还是会存的。我们团队就使用混合框架构建了数据中心,从而完善OLTP能力。
其他多引擎扩展 ,MPP数据库和Hadoop大数据平台的差异,在扩展其他计算引擎方面,GBase 8a 依托UP统一数据平台,可以支持外部数据扩展机制,可方便融合大数据开放生态,包括:
• 支持多种数据源;
• 传统关系型数据库、新型数据库;
• Hadoop生态、开源数据格式;
以下是两者的比较:
特性 | Hadoop | MPP数据仓库 |
计算节点数 | 可到数千个 | 一般1000个以内 |
数据量 | 支持大于10P | 一般不大于10P |
数据类型 | 关系型,半关系型,无结构化,语音,图像,视频 | 关系型 |
时延 | 中/高 | 低(但还是要看数据量和维度的数量) |
应用生态 | 创新型/人工智能 | 传统数据库型/BI类 |
应用开发接口 | SQL,MR,丰富的编程语言接口 | 标准数据库SQL |
可扩展性 | 无穷的可能,完整的编程接口 | 有限扩展能力,主要通过UDF支持 |
事务支持 | 有限 | 完整 |
价格 | 低 | 高 |
GBase 8a仍需加强的点:
1.扩展大数据分析面:需要深度融合大数据分析的组件,在此基础上开发,扩展生态圈,GBase 8a目前只是分析型数据库,如果有能力可以提供给客户完整的大数据集成解决方案;
2.减小数据抽取的难度,减少开发工作量。融合多种 ETL 工具 例如 使用 大数据组件 sqoop和PDI/Kettle 和调度任务计划增量抽取 ;
3.增加事务支持的强度,例如 事务的强一致性;
4.优化硬件故障预警,预警管理和服务器监控和云主机监控;
5.逐渐支持noSQL ,例如lucene索引技术,支持全文搜索引擎;
6.支持非结构化查询(支持类似mongodb或者hbase类似的功能)实现数据快速检索;
7.良好的服务(支持的工程师服务要到位,全心全意为客户服务),提高客户的满意度;
8.支持数据库的开放接口,对数据处理完后,直接对数据分发,能提供给kafka和mq或者对关系库例如 国产达梦、mysql,pg等数据存储节点进行分发;
9.开发或者使用开源 web中间件例如, Oracle +weblogic ,深度融合自己的web中间件,健全产品生态链条;
10.开发类似GoldenGate软件,支持同构和异构,全面兼容/支持国产化,支持数据库平台数据抽取的数据复制/容灾软件/数据迁移。
11.当前国产数据备份软件跟国外同类产品仍有较大差距。例如同类产品Veritas NetBackup,市场占有率还是很高的。如果能开发出同类产品,市场仍然广阔。
12.当前的国产数据库高可用解决方案与国外同样有差距,例如同类产品Veritas Cluster Server 就是佼佼者,国产化的中科曙光高可用灾备管理软件Availability软件目前的主要市场还是Oracle。数据库厂商可以从这些方面去延伸,加强自身的生态圈优势,提高竞争力。
13.可以和硬件厂商尝试开发一体机产品。目前国产数据库厂家一体机产品,还是很少的。Oracle Exadata 产品仍然领先于其他厂家。
GBase 8a 优势:
1.良好的服务(支持的工程师服务要到位,全心全意为客户服务),提高客户的满意度(24小时);
2.全方位的支持,客户面对故障和软件系统bug可以提供售后服务,提供开发和运维技术支持(clickhouse和Greenplum开源产品,不能提供很好的支持);
3.相对便宜的价格;
4.安全性有保障(安全加密);
5.国产创新软件,不怕卡脖子;
6.及时发布产品漏洞更新;
MPP数据库使用场景:
MPP 数据库适合用于需要处理海量数据且需要快速响应的场景,尤其是需要进行复杂分析、高速度数据挖掘和大规模数据处理的场景,例如数据仓库、商业智能、在线分析处理等。MPP数据库通过将数据和计算分布到多个节点上并行处理,可以大大提高数据处理的效率和性能,并且支持高并发访问和大规模数据存储。在企业级应用中,MPP数据库常用于大数据分析、数据挖掘、企业数据仓库、在线事务处理、在线分析处理等场景中。
例如,金融行业需要对大量的交易数据进行实时处理和分析,而MPP数据库可以提供高性能和高可用性的数据处理能力。同时,零售行业也需要对大规模的销售数据进行实时处理和分析,以便做出更精准的销售决策,而MPP数据库同样可以提供高效的数据处理能力。
Hadoop 使用场景:
大数据量存储:HDFS分布式存储(各种云盘,百度,360~还有云平台均有hadoop应用),多副本 ;
日志处理: Hadoop擅长,海量计算: 并行计算;
ETL(sqoop/kettle):数据源oracle、mysql、DB2、mongdb及主流数据库数据抽取到hbase或者hive数据仓库进行数据分析
使用HBase做数据分析: 用扩展性应对大量读写操作—Facebook构建了基于HBase的实时数据分析系统,大屏展示和曲线模型,实时故障展示;
例如: 笔者曾经见过某联通公司曾使用, hadoop系统架构分析用户上网行为分析,电力公司使用hbase get “table”,"rowkey" 获取 电力负载情况的实时曲线 十分高效;
最后建议用户根据自身需要和场景选择平台架构,不要盲目跟随流行。hadoop架构对系统搭建能力和开发能力要求较高,慎重选择。用户需要根据不同应用场景选择不同架构产品,发挥不同产品的优势。





