暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

大数据平台选自建,还是托管或者是半托管?给例子给你参考

闲话少说聊数据 2021-06-17
672

点击上方蓝字关注我们

前言

    相信不少的小伙伴,在公司宣布要成立大数据部门,或者刚跳槽到一个从0搭建大数据平台的公司,是自建还是买云平台,都会存在着这个疑问。

今天我就拿以往一个平台选型的例子,简单聊一下大数据平台选型的思路,希望能给你点帮助。


一、选型前的调研                    



在考虑选型之前需要调研几个事情:数据量,场景,团队技术人员技能。

1、数据量



1)需求考虑历史存量数据,及未来1年/3年的增量用户带来的增量数据。

2)通常占用大容量空间的场景

不是在业务数据,而且在用户行为(埋点),或智能设备产生的大量IOT数据。(如笔者从事过的某企,IOT一天有约20亿的记录数据;埋点约5亿记录)

3)数据量的换算(需要了解大数据存储的压缩比)

以Mysql为基准(1G),Text大概占3G,Hive的ORC格式占0.3G

得到以下比例:

MySQL:TXT:HIVE(ORC)    1比3比0.3

Hive三副本,MySQL:TXT:3*HIVE(ORC) 最终比例为:约等1比3比1

MySQL占用空间约等于Hive压缩后(ORC,PARQUET默认压缩)的三个副本占用空间。

4)数仓是分层的,数据有冗余

可以简单的*系数(我们大概是*1.5,ODS存数据,DW存一段时间的)。

结合以上信息,结合用户增长,简单估算算出1年后和3年后整个数据量。

2、场景(实时/离线)



需要考虑是否只有离线场景,还是也需要实时场景。这个对后面平台选型比较重要,特别是托管云平台按算力来计费。

如果是自建,实时场景一般会跟离线机器分开做资源隔离。实时场景要求24小时都不能中断,数据中断处理起来还是比较麻烦的。

3、技术团队



考虑自建,无论是团队运维能力,还是对开源工具的熟悉,都有很高的要求。请教过某前任公司运维负责人,给的忠告是:不想每个月都半夜爬起来就『无脑上云』。但是我们还是想再科学认证一下。

二、方案选型                     



选型分开两块来说,一是主机层面,另外是技术组件方面。

这里提供一下我们做的对比:

主机层面



产品组件层面对比:



总结 云主机+开源产品有缺点:



优点:

  • 1.主机运维成本低。

    硬件侧故障有保障。

  • 2.基于完全开源生态,后续的扩展性好,方便快速替换更优技术方案。

  • 3.开源大数据生态趋于完善,基本上能找于单独免费解决方案。

  • 4.基于开源,既适合过度到全自建,也适合一个中长期方案。

  • 5.前期准备周期适合,能较快的投入开发。

缺点:

  • 1.核心的组件需要自行维护,可能会遇上兼容性问题,或者技术瓶颈。

  • 2.没有统一集成的数据治理方案,需要自行实现或者找开源产品。

  • 3.数据保存在云主机上,数据保密性未知。


下一篇聊下:Clouder收费墙后CDH, HDP还能继续用吗?在哪里能下载。



点个在看你最好看


文章转载自闲话少说聊数据,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论