暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Alluxio学习报告

原创 2022-06-15
688

上周听了Alluxio的报告, 现在结合公开资料作一点总结。
项目地址:https://github.com/Alluxio/alluxio

综述

Alluxio 为自己的工具提供的定义是云上数据编排工具(Data Orchestration for the Cloud)
它旨在弥合数据驱动应用程序和存储系统之间的鸿沟,使存储层的数据更接近数据驱动应用程序,并使其易于访问,使应用程序能够通过一个通用接口连接到多个存储系统。
Alluxio 将自己的核心能力开源, 应用系统仅仅与Alluxio交互即可实现全域数据访问。
全面服务化, 数据架构实现热插拔,全面利用各种缓存技术,支持数据冷/温/热分层与数据灾备。

在数据生态系统中,Alluxio介于数据驱动的应用程序(如Apache Spark、Presto、Tensorflow、Apache HBase、Apache Hive或Apache Flink)和各种持久性存储系统(如Amazon S3、Google Cloud storage、OpenStack Swift、HDFS、GlusterFS、IBM Cleversafe、EMC ECS、Ceph、NFS、Minio和阿里巴巴OSS)之间。Alluxio统一了存储在这些不同存储系统中的数据,为其上层数据驱动应用程序提供了统一的客户端API和全局名称空间。

各种服务接口

优点

  • Alluxio通过简化应用程序访问数据的方式,可以让用户专注于数据的应用而非考虑数据存储的格式或位置。
  • 内存速度I/O:Alluxio可以用作分布式共享缓存服务,因此与Alluxio通信的计算应用程序可以透明地缓存频繁访问的数据,尤其是来自远程位置的数据,以提供内存I/O吞吐量。此外,Alluxio的分层存储可以同时利用内存和磁盘(SSD/HDD),使数据驱动应用程序的弹性扩展具有成本效益。
  • 简化的云和对象存储采用:与传统文件系统相比,云和对象存储系统使用不同的语义,这对性能有影响。常见的文件系统操作(如目录列表和重命名)通常会带来巨大的性能开销。当访问云存储中的数据时,应用程序没有节点级别的位置或跨应用程序缓存。通过使用云或对象存储部署Alluxio,可以从Alluxio而不是底层云或对象存储提供数据,从而缓解这些问题。
  • 简化的数据管理:Alluxio提供对多个数据源的单点访问。除了连接不同类型的数据源,Alluxio还允许用户同时连接到同一存储系统的不同版本,例如多个版本的HDFS,而无需复杂的系统配置和管理。
  • 易于应用程序部署:Alluxio管理应用程序与文件或对象存储之间的通信,将应用程序的数据访问请求转换为底层存储接口。Alluxio与Hadoop兼容。现有的数据分析应用程序,如Spark和MapReduce程序,可以在Alluxio上运行,无需任何代码更改。

技术创新

Alluxio将三个关键的创新领域结合在一起,提供了一套独特的功能。

  1. Global Namepace 全局名称空间:Alluxio作为多个独立存储系统的单点访问,而不考虑物理位置。这提供了所有数据源的统一视图和应用程序的标准界面。
  2. Multi-layer Cache 智能多层缓存:Alluxio群集充当连接存储系统中数据的读写缓存。可配置策略可自动优化数据放置,以提高内存和磁盘(SSD/HDD)的性能和可靠性。缓存对用户是透明的,并使用缓冲来保持与持久存储的一致性。
  3. Service API 服务器端API转换:Alluxio支持行业通用API,如HDFS API、S3 API、FUSE API、REST API。它可以透明地从标准客户端接口转换为任何存储接口。Alluxio管理应用程序与文件或对象存储之间的通信,无需复杂的系统配置和管理。文件数据可以看起来像对象数据,反之亦然。

应用

目前已经广泛应用于头部大厂的数据中心。
ITPUB20220610开源小秀场kvrocks_Alluxio_apisix_Doris.2.png

最后修改时间:2022-06-15 23:33:56
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论