暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Lambda架构

嘻哈鸭与王子 2018-12-30
1106

今儿介绍下Lambda架构~

分析用的数据可能简单的存储在硬盘的平面文件中,例如电子数据表格或文档。由于数据的多样性和规模不断提升,因此需要大规模和复杂的资源来存储和处理这些数据。事实上,在很多潜在的下游应用中,现在的数据层包含了实时(流)数据和批量数据。这种复合型系统被称为Lambda架构,如图所示:



数据层的组件:

数据源:既可以是流数据中接收的实时数据,也可以是从定期或间断性基础组件中接收到的批量更新数据。

数据湖:实时和批量数据均保存在数据湖模型中,分布式文件系统例如Hadoop文件系统(HDFS)或是 Amazon网页服务(AWS)简单存储服务(S3)都是通用存储介质,用来存放批量数据或流数据。这种数据可以临时或永久保存。

数据河:数据湖的中心位置聚集了所有种类的原始数据,而数据河生成持续的消息队列将实时数据分配给流处理任务。这也被定义为架构中的速度层。

合并视图:原始数据的实时视图和批量视图都可以合并成通常的持久层,例如支持结构化数据表的数据仓库可以通过SQL查询,既能用于事务型应用,也可用于分析型应用。

下游应用:下游应用类似于高级分析管道系统,既支持直接使用批量处理和实时处理层的输出,也可以通过数据仓库中的合并视图与一个或所有资源交互。


先写这些吧,有点烦躁


文章转载自嘻哈鸭与王子,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论