湖仓一体(一):由来
数据仓库是优化后的数据库,非常适合结构化数据,但是随着企业的现代化,产生了大量的非结构化、半结构化数据,这些数据呈现出多样性,高速度、大容量等特征。很显然,数据仓库并不适合这样的场景,而且就成本而言,一定不是最具优势的方案。
随后数据湖的概念出现在人们的视野中,它一个数据存储的平台,不需要定义数据,能够自由存储不同类型的数据。在加载数据时,数据仓库需要预先定义,即写时模式;数据湖则是在准备使用数据的时候定义数据,即读时模式,更能满足不同业务的需求。
随着当前的大数据技术应用趋势,企业对单一的数据湖和数仓架构并不满意。越来越多的企业开始融合数据湖和数据仓库的平台,不仅可以实现数据仓库的功能,还实现了各种不同类型数据的处理功能、数据科学、用于发现新模型的高级功能,这就是所谓的【湖仓一体】。
湖仓一体(KeenData LakeHouse)是一种新型开放式架构,将数据湖和数据仓库的优势充分结合,它构建在数据湖低成本的数据存储架构之上,又继承了数据仓库的数据处理和管理功能。作为新一代大数据技术架构,将逐渐取代单一数据湖和数据仓库架构。

湖仓一体的关键特性:

1)事物支持:在企业级应用中,支持ACID满足大量的SQL并发读写
2)模式实施和治理:湖仓一体有一种支持模式实施和演变的方法,支持 DW 模式规范,能对数据类型做推断,并有数据治理和审计机制。
3)BI工具支持:湖仓一体可以直接在源数据上使用BI工具,免去像之前在数据仓库和数据湖中拷来拷去的操作,减少陈旧度和等待时间,提高新近度,并且降低必须在数据湖和仓库中操作两个数据副本的成本。
4)存储与计算分离:支持更大的并发量和更大的数据规模。
5)兼容性:湖仓一体使用的存储格式是开放式和标准化的,它提供了多种 API,各种工具和引擎都可以直接有效地访问数据。
6)支持从非结构化数据到结构化数据的多种数据类型:湖仓一体可用于存储、优化、分析和访问许多新数据应用程序所需的数据类型,包括图像,视频,音频,半结构化数据和文本。
7)支持各种工作场景:包括数据科学,机器学习和 SQL 分析。这些可能依赖于多种工具来支持的工作场景,它们都依赖于相同的数据存储库。
大数据发展,让我们看到了数据湖与数据仓库的不断创新与发展,也看到了湖仓一体化的技术架构为企业数据能力带来的提升。湖仓一体能发挥出数据湖的灵活性与生态丰富性,以及数据仓库的成长性与企业级能力。帮助企业建立数据资产、实现数据业务化、进而推进全线业务智能化,实现数据驱动下的企业数据智能创新,全面支撑企业未来大规模业务智能落地。




