暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据湖的前世今生

数风云 2021-07-20
756
点击数风云关注我们吧~

文/黄雅欢、赵添翼


数据湖具有集中存储、成本可控、使用简单的特点,支持海量异构数据格式的输入及处理分析。如果把数据比作大自然中的水,数据湖就是汇聚源流的湖泊。


湖内可容纳:


结构化数据(如关系型数据库中的表)


半结构化数据(如XML、JSON等)


非结构化数据(如图像、语音、文档等)



在本文中,我们将认识数据湖,追溯它的“前世今生”。


1

缘起:数据处理技术的发展历程



数据库是“电子化的文件柜”,企业通常根据业务条线的划分系统,基于数据库技术进行事务处理,满足业务系统数据存储计算的需要。


但随着业务的发展,企业内部数据库不断增多,分散各处形成“数据孤岛”,使用效率较低。


“数据仓库”的诞生,一定程度上消除了“数据孤岛”。数据仓库将企业核心业务数据汇聚一处,通过规范的模型设计支撑上层报表,为企业更好地提供了决策支持。


近年,随着互联网的加速发展和移动互联网的快速兴起,数据采集更方便、数据种类更丰富,行为轨迹、语音视频等非结构化数据爆发式增长,数据规模进一步扩大。


传统的数据库和数据仓库等技术无法适应需要快速响应、实时分析的数据需求,难以处理日志、语音等非结构化数据,存储相对精简造成一定信息损失。


企业迫切需要一个新型大数据解决方案——“数据湖”,应运而生!


2

演化:从存储方式到解决方案

总体来说,数据湖的演化可划分为三个阶段:



伴随着不同的阶段,数据湖的能力得到了递进式发展:


基本能力

以任意格式输入原始数据的存储方式

核心能力

支持海量异构数据集中存储和分析处理,低成本,易维护的存算架构

增强能力

涵盖大数据存算、分析、治理、安全、应用等的平台一揽子解决方案


3

特点:与数据仓库的区别和联系



传统的数据仓库会预先定义好数据格式,加载前进行清洗、转换等统一的预处理,向用户提供标准、规范、一致的数据服务。而数据湖可直接加载原始文件,用户使用时再自行定义数据格式并按需处理,服务方式更加灵活。



从存储内容、数据类型、开发模式、适合场景等方面进一步展开对比,可以看出:数据湖与数据仓库不是二选一的替代关系,二者适合场景各有侧重。数据湖注重灵活性,数据仓库注重成长性。


因此,新一代数据湖方案往往采用“湖仓一体”架构,湖仓优势互补从而最大化实现数据的敏捷运营。


4

建设:企业级数据底座的演进


数据湖作为不断演进、可扩展的新一代大数据解决方案,具备多源异构数据的采集能力、强大的数据存储与计算能力、完善的数据管理与服务能力,可以满足新形势下灵活多样的数据需求。


今年起,大数据平台将紧扣“一体化”和“自服务”两个关键词,围绕“采、建、管、用”四个关键环节,推进数据湖建设,向“湖仓一体”的架构进行演进,实现工具配置化、流程自动化、数据民主化,全面夯实企业级数据底座,为集团提供更丰富、更及时、更开放、更融合的数据支撑。

预告

近期我们会推出数据湖存储、计算、加速、管理等一系列技术文章,敬请期待~



END

顾问:许国平 李湘宜

     罗学平 刘德清 张刚

总编:孙鹏晖

编辑:江晓宇

美编:郎贤美、赵添翼

长按二维码,关注我们吧!

-本文为“数风云”第33期文章;

-转载本公众号文章请联系我们;

-欢迎来稿:请按“题目-作者”格式命名发送到sunpenghui@abchina.com。


文章转载自数风云,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论