点击上方蓝字关注我们
前言
相信不少的小伙伴,在公司宣布要成立大数据部门,或者刚跳槽到一个从0搭建大数据平台的公司,是自建还是买云平台,都会存在着这个疑问。
今天我就拿以往一个平台选型的例子,简单聊一下大数据平台选型的思路,希望能给你点帮助。
一、选型前的调研
在考虑选型之前需要调研几个事情:数据量,场景,团队技术人员技能。
1、数据量
1)需求考虑历史存量数据,及未来1年/3年的增量用户带来的增量数据。
2)通常占用大容量空间的场景
不是在业务数据,而且在用户行为(埋点),或智能设备产生的大量IOT数据。(如笔者从事过的某企,IOT一天有约20亿的记录数据;埋点约5亿记录)
3)数据量的换算(需要了解大数据存储的压缩比):
以Mysql为基准(1G),Text大概占3G,Hive的ORC格式占0.3G
得到以下比例:
MySQL:TXT:HIVE(ORC) 1比3比0.3
Hive三副本,MySQL:TXT:3*HIVE(ORC) 最终比例为:约等1比3比1
MySQL占用空间约等于Hive压缩后(ORC,PARQUET默认压缩)的三个副本占用空间。
4)数仓是分层的,数据有冗余
可以简单的*系数(我们大概是*1.5,ODS存数据,DW存一段时间的)。
结合以上信息,结合用户增长,简单估算算出1年后和3年后整个数据量。
2、场景(实时/离线)
需要考虑是否只有离线场景,还是也需要实时场景。这个对后面平台选型比较重要,特别是托管云平台按算力来计费。
如果是自建,实时场景一般会跟离线机器分开,做资源隔离。实时场景要求24小时都不能中断,数据中断处理起来还是比较麻烦的。
3、技术团队
考虑自建,无论是团队运维能力,还是对开源工具的熟悉,都有很高的要求。请教过某前任公司运维负责人,给的忠告是:不想每个月都半夜爬起来就『无脑上云』。但是我们还是想再科学认证一下。
二、方案选型
选型分开两块来说,一是主机层面,另外是技术组件方面。
这里提供一下我们做的对比:
主机层面
产品组件层面对比:
总结 云主机+开源产品有缺点:
优点:
1.主机运维成本低。
硬件侧故障有保障。
2.基于完全开源生态,后续的扩展性好,方便快速替换更优技术方案。
3.开源大数据生态趋于完善,基本上能找于单独免费解决方案。
4.基于开源,既适合过度到全自建,也适合一个中长期方案。
5.前期准备周期适合,能较快的投入开发。
缺点:
1.核心的组件需要自行维护,可能会遇上兼容性问题,或者技术瓶颈。
2.没有统一集成的数据治理方案,需要自行实现或者找开源产品。
3.数据保存在云主机上,数据保密性未知。
下一篇聊下:Clouder收费墙后CDH, HDP还能继续用吗?在哪里能下载。
点个在看你最好看