暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
《Spark + Alluxio解决方案概览》白皮书.pdf
131
12页
4次
2023-01-06
免费下载
白皮书
Spark + Alluxio 解决方案概览
SparkAlluxio联合部署,打造现代化数据平台
Hope Wang, 产品经理
陈寿纬, 软件工程师
主要内容
1. 为什么需要数据编排?
2. 案例研究
3. 性能基准测试和成本节约测算
4. 新手上路
本白皮书版权归属于北京开元维度科技有限公司,未经授权,不得进行任何形式的转载和分发。
Alluxio数据编排平台可用于统一异构环境
下的数据孤岛。本文是介绍
Spark+Alluxio这个技术栈的基本架构和
解决方案。我们还提供以下白皮书的下载:
Alluxio应用场景概览,Presto + Alluxio
概览,利用Alluxio进行机器学习训练概览。
/2
Apache Spark是一种支持ETLSQL查询、机器学习和流计算等各类大数据分析作业的开源计算
框架。Spark使用内存数据模型并具有快速处理的特性,因此在数据驱动型企业里得到了普遍应用。
对于一个全球化运营的公司而言,其跨地域的数据平台会面临许多挑战,往往因为以下原因导致
数据的价值转化慢、成本高、敏捷性降低等问题:
l 如今,数据通常存储于本地、云上或者跨多个地理区域的数据湖、数据仓库和对象存储等数据
孤岛中。构建统一的、多数据源、并有效支持Spark的数据平台,选取合适的解决方案是有挑
战的。
l 端到端的数据工作流要求Spark与其他计算框架(如PrestoTensorFlow等)一起使用,这就
需要在设计数据平台的架构时统筹考虑。此外,许多企业还在使用上一代的数据平台,缺乏云
原生能力或者需要经历复杂的云迁移过程
果您正在考虑怎么更新你的数据架构应对这挑战,Alluxio可以提供帮助AlluxioSpark
来自同一个实验室——加州大学伯克利分AMPLabAlluxio连接计算和存储的开源数据编
排平台。通AlluxioSpark,能统一数据孤岛,提供跨计算框架的数据共享,并不同
存储环境进行数据的无缝迁移。
AlluxioSpark部署实现一个可扩展、敏捷和经有效的方案,打造现代化的数据平台。 本
文提供了Spark + Alluxio这个技术栈/解决方案的概你将会了解到统架构、实践和性能
成本基准测试结果
of 12
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜