暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

GBase数据库解决客户面临的大数据需求 助力数字化转型

GBASE数据库 2022-06-14
589

目前随着国产化的需求,企业数据库处理也面临着三座大山:第一是“过去”:业务数据孤岛;其次是“现在”:MPP数据库解决了

结构化业务数据的分析问题;最后是“未来”:大数据的挑战,全数据、多模型、异构、新技术…

企业的数据库也随之面临着处理变快Velocity,数据延时长,无法实时指导运营;类型变多Variety,数据源增多,结构化半结构化和非结构化数据类型;

负载变大Volume,数据量大,应用增多,数据库无法存储数据,承载负担;价值变高Value,传统数据模型无法有效支持深度挖掘,无法快速发现数据价值 这四大挑战。

在数据库技术发展过程中,演变的里程碑:


由此,大数据引发了处理架构的多元化。目前数据处理的有效架构:混搭架构,多种技术。


那么GBase UP具备哪些性能优势呢?

MPP VS. Hadoop - 性能对比

TPC-DS基准测试的特点:
• 共99个测试案例,遵循SQL99和SQL 2003的语法标准,SQL案例比较复杂
• 测试案例包含各种业务模型(如分析报告,迭代式联机分析,数据挖掘等)
• 分析的数据量大,并且测试案例是在回答真实的商业问题
• 几乎所有的测试案例都有很高的IO负载和CPU计算需求

MPP VS. Impala - 性能对比

TPC-H基准测试的特点:
• 同数据、同环境下的性能,Impala与MPP对比,根据数据特点不同,Impala较MPP会有低于7~12.3倍的性能差异
• Impala优化手段极其复杂,需要专业人士才能完成
• 不支持高精度decimal类型, 因此在实际生产环境中基本不可用
• 没有事务能力,加载和执行insert过程中可以看到脏数据,因此在实际生产环境中基本不可用
• 750G左右的数据,MPP加载17分钟,Impala +kudu加载需要23.5小时, 因此在实际生产环境中基本不可用
• 查询执行不稳定,执行SQL有时报错,当不执行任何任务时,也发现后台在做大量的IO操作,此时执行任何SQL都会报错(包括执行select count(*)这样简单的SQL), 因此在实际生产环境中基本不可用。

Hadoop价值:非结构化数据 & 深度机器学习

Hadoop
• 非结构化数据接入和实时分析
• 历史数据查询分析
Spark
• 流数据处理
• 深度机器学习
• 图算法引擎
• R语言非结构数据算法分析

MPP和Hadoop混搭方案进行数据处理

GBase MPP擅长:
• 报表
• 即席查询
• 结构化数据模型化处理(涉及表关联,星型化/雪花形化)/ETL/ELT
• 结构化的OLAP:多表关联、复杂查询、大数据查询、大数据插入
Hadoop擅长:
• 批处理/多表全表扫描
• 实时流处理
• 图计算
• 简单查询和迭代的算法(如聚类分类算法)
• 非结构化数据存储和转换

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论