暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

从0开始搭建大数据平台之数据平台的能力

叁金大数据 2020-04-14
320


开局一个小问题:我们印象中的大数据平台是怎样的?


  • 是Hadoop、Hive、Spark等基础环境的管理和监控平台?

  • 还是数仓建设和数据管理的平台?

  • 亦或者是贴近业务、面向应用的数据查询和分析工具?

理论上都是!!!

大数据平台应具备的能力

大数据平台是囊括大数据存储、处理和数据应用分析的集成化数据开发平台。建设这样一个大数据平台必然会面临很多的问题,首先是如何管理一个单体大集群、其次,多源数据如何录入、当数据接入之后,我们如何高效的存储和查询这些数据。如何管理这些数据,避免形成数据沼泽,如何保障数据安全、如何将数据展现给用户等等。 这些问题直接刻画出一个企业级大数据平台所需要具备的能力。
数据存储和构建数据仓库的能力
大数据平台所面临的数据种类多种多样,包括结构化和非结构化数据以及文档类型数据。大数据平台需要能够对不同种类的数据提供相应的存储模型和查询手段来满足不同的业务场景和需求,比如数据仓库主要应用于联机分析处理,提供海量数据查询分析的能力。HBase提供非结构化数据的快速读写功能。
数据接入的能力
存储和计算的前提是数据的接入,大数据应用领域数据是重中之重,但是我们的数据具有来源众多、类型繁杂、数据量级大等等特点,我们的数据平台需要能够对接各种来源和各种类型的海量数据
保障数据安全的能力
平台的安全和管理不用多说,普通的平台也需要考虑这个问题。而大数据平台不仅仅需要考虑平台本身的安全,更重要的是数据的安全问题。我们需要对数据进行隔离和访问授权、对用户进行访问控制
数据管理的能力
大数据平台只对数据进行存储就够了吗?并不是,忽略数据管理会给数据平台的建设带来很多问题。随处可见的数据不统一,难以提升的数据质量、难以完成的数据模型梳理等等问题会严重阻碍数据平台的发展。
快速计算的能力
数据存储之后就需要考虑如何使用这些数据了,我们熟知的数据的处理方式有离线批处理、实时流计算、机器学习预测分析等等
数据查询的能力
没有什么数据处理语言比SQL更深入人心了,想想只需要通过SQL就能把数据玩出花来简直不要太兴奋,一个优秀的数据查询引擎可以帮助我们的数据平台接纳更多的用户,同时降低使用的门槛。
数据可视化的能力
大数据的核心价值在于通过对历史数据的处理和分析,展现出数据的趋势,辅助决策者对未来进行决策。BI可视化是真正面向老板的需求,你敢说不重要吗。
集群的监控和管理能力
这部分属于基础设施建设,我们的大数据平台会面对很多服务器以及部署的很多大数据组件和服务,这部分包括一些运维的工作,但是Hadoop等集群的基础环境也属于大数据平台的一部分,所以大数据平台需要对集群进行管理和监控。

常用技术栈

了解了大数据平台所应该具备的能力之后,我们就要思考如何构建大数据平台赋予它相关的能力了。开源社区其实已经发展出了多种组件可以供我们组合成一套大数据平台,由于涉及到公司内部的业务场景以及模式可能不完全适用,但是构建通用型数据平台是可以满足的。

图中只列出了部分常用的有代表性的大数据技术栈,大家有兴趣的话可以自己整理一下来加深印象。我们在构建大数据平台的时候就需要多关注这张图:一是看看有没有成熟的开源组件能够帮助我们解决大数据平台所需要的功能,二是学习这些优秀的开源项目是如何设计的,如何解决的相关问题。如果不能满足我们的需求,我们也可以汲取他们的优势自己实现一个。我们这系列文章讲述的通用型大数据平台所涉及的技术组件大部分就来自于图中我们提到的这些开源组件,我们通过使用、二次封装以及自行研发的方式,完成我们的大数据平台。
往期精彩回顾
从0开始搭建大数据平台之认识数据平台
SQL优化器执行过程之逻辑算子
SQL优化器简介


希望疫情早点过去~


文章转载自叁金大数据,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论