暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

2022年中国数据库行业年度分析报告:湖仓一体

原创 星环科技 2023-02-27
954

分析型数据库的出现可以追溯到上个世界的70年代末期,以IBM的Db2和甲骨文的Oracle为代表,基于共享存储架构的数据库对业务的处理;早期企业数据分析场景较为单一,业务多源自于管理层固定报表,需被处理的数据均已结构化数据为主。因此,第一代的分析型的数据业务是基于共享存储架构的数据仓库发展的。

随着1984年Teradata推出的基于其专属硬件的无共享架构的MPP数据仓库平台开始,企业数据分析平台逐步从少量的报表转变为面向更多业务人员的批处理业务,并以BI报表形式进行可视化展示,并将报表数据用于业务的决策。因此,基于无共享架构的数仓仓库拓展出了第二代数据仓库业务。

更多的MPP类数据库如Greenplum、Vertica在分析业务处理上崭露头角,企业需要处理的数据类型依旧是结构化数据,但数据量出现了快速增长,达到了GB或TB级。随着2005年以Hadoop为代表的数据湖推出之后,伴随着互联网企业的兴起,各种结构的数据逐步被加入了分析平台中,同时被分析数据的逐步增长,除去传统的数据查询、固定报表,第三代分析业务还涌现了大量的面向业务监测和洞察的自助式分析,还伴随一定的时效性要求。

通过对近年来数据分析的应用场景、数据以及计算环境等方面的分析,以及现有的分析型数据库在应对这些变化时的不满足,第四代的分析型数据库已经向着增强分析性能、提升易用性、降低使用成本的方向发展。

在如此趋势下,Databricks于2016年推出Delta Lake,旨在在数据湖上支持类似DBMS的数据管理功能,而随着Databricks于2020 年率先在业内提出 LakeHouse 的概念,湖仓一体概念由此开始兴起。Snowflake同步推出了数据云产品,在其云上数据仓库的基础上增加了数据湖的功能。亚马逊云科技基于Amazon S3构建数据湖,绕湖集成数据仓库、大数据处理、日志分析、机器学习数据服务实现智能湖仓。

国内在此技术背景下,同样不甘示弱,星环推出了ArgoDB数据库,加强数据湖和数据仓库技术相结合,在同一平台中,避免数据移动,将原始的、加工清洗的、模型化的数据,共同存储于一体化的“湖仓”中,既能面向业务实现高并发、精准化、高性能的历史数据、实时数据的查询服务,又能承载分析报表、批处理、数据挖掘等分析型数据集市业务,实现“湖仓集一体”。

星环科技湖仓集一体化的方案可以给用户的业务提供:(1)统一访问接口,最大程度上降低数据湖、数据仓库、数据集市业务过程中业务接口的调整;(2)统一元数据管理,可以在精准的ACL控制下,实现按需展示湖仓集内的相关元数据的统一查询;(3)统一存储管理,对使用者屏蔽不同数据源的数据存储,降低业务数据管理难度;(4)增强实时数据处理,使得湖仓集业务数据能够得到高效处理;(5)无缝衔接AI技术,帮助业务挖掘更多数据价值。


图1:星环科技湖仓集一体化方案

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论