暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

开源生产力 | 网易数帆亮相 Apache 全球盛会,携 Kyuubi、Amoro 共赴云原生大数据的明天

Amoro Community 2023-08-24
1286

Apache 软件基金会(ASF)是目前全球最大的开源软件基金会,维护着包括逾 350 个顶级项目以及数十个孵化器项目,为全球提供着几十亿甚至上百亿美元市值的开源软件,是推动全球开源软件发展的重要力量。

近日,Apache 软件基金会的官方全球系列大会 CommunityOverCode Asia(原 ApacheCon Asia)首次在中国北京市举办,大会囊括了 17 个论坛方向,海内外超过 160 位讲师带来了上百个前沿议题。网易数帆携顶级项目 Apache Kyuubi新兴湖仓项目 Amoro 技术与实践深度参与了此次大会,和与会者共赴开源盛宴,探索数智化趋势下大数据技术的明天。
网易数帆展台吸引 Apache 软件基金会董事 Justin Mclean 驻足交流

企业数智化转型的明天,是数智原生企业,转型期间难免面临组织架构与生产关系的不断调整以适应业务创新发展,唯有通用性、标准化的数智技术体系,才能确保数据在业务数字化、智能化变革中稳定发挥核心驱动力的作用,而开源大数据基础软件,已被验证为构建这一技术体系的基石。



Kyuubi:打造云原生大数据的统一入口



被 80% 的财富500强企业采用,覆盖 208 个国家和地区,Apache Spark 在大数据领域的地位无需赘言。由于历史原因,Spark on YARN 是最主流、最成熟的使用方式,然而随着云原生技术的流行,Spark on Kubernetes 正在受到越来越多用户的青睐。

基于五年 Spark on Kubernetes 探索经验,网易数帆软件工程师、Apache Kyuubi PMC 成员潘成认为,相比于 Spark on YARN,Spark on Kubernetes 具有诸多显著的优势,如基于容器可以简化作业管理、更精细的资源管理策略可以节约计算资源、降本增效等。同时也因为技术较新,Spark on Kubernetes 的某些特性不完备,还缺乏开箱即用的辅助功能、标准化的部署方案,并且在企业落地普遍面临多种基础设施差异显著的挑战。潘成表示,基于 Apache Kyuubi 构建统一 Spark 任务网关、结合其他开源技术可以解决这些问题。

Apache Kyuubi 由网易数帆捐赠至 Apache 软件基金会,融入 Community Over Code 的社区文化,现已毕业成为顶级项目。作为一个企业级的大数据网关,Kyuubi 提供多种用户接口,也支持多种类型的 Spark 任务,并在多租户和安全性也做了充分的支持。在架构上,Kyuubi 可以根据管理员预设的路由规则自动寻找或创建合适的计算资源,并在其闲置一段时间后主动释放资源
潘成表示,Kyuubi 选择了使用 Spark 原生的方式对接 Kubernetes,而非 Spark Operator 模式,这种选择使得 Kyuubi 能够更加一致地使用 spark-submit 命令对接不同的资源管理系统,如 YARN、Mesos、Standalone。这种设计,对于已有大数据基础设施的企业而言,更适合用于平滑过渡到云原生大数据架构。(本次分享全文整理将于后续发布,感兴趣的读者可以关注 Apache Kyuubi 社区公众号)



Amoro:打造云原生湖仓管理系统



Amoro 是网易数帆开源的一个湖仓管理系统,原名 Arctic,开源至今已有一周年。借鉴数据库管理系统的定位表明,Amoro 意在将一些流程向用户屏蔽,作为一款基础软件帮助用户获得传统数据库和数仓那样更高效、便利地使用数据的体验;而 Amoro 开放的特性可以很好地契合各种由开源技术栈构建的大数据平台和产品,拥有数据湖的低成本,高弹性,体现了湖原生数仓、湖仓一体的业务价值。开放性与 Apache 基金会的理念也极为吻合,Apache 软件基金会董事 Justin Mclean 到访网易数帆展台时,在与 Amoro 社区成员的交流中,对 Amoro 社区建设及 Amoro 与其他 Apache 项目协同发展表示了期待。

此前 Arctic 的命名更多源于 Apache Iceberg,但网易数帆发现,一个可以适配更多数据湖格式的湖仓管理系统更加符合社区用户的需要,因而希望赋予项目一个更加通用的名称,并在社区的驱动下对接更多的数据湖格式。
网易数帆大数据技术专家、Arctic Maintainer 成员凌断介绍,Amoro 命名体现了项目的三大主流应用场景:湖原生数仓、流式 pipeline 和云原生数仓
Iceberg 诞生的重要背景之一,是面向 AWS S3 构建数仓的需求,妥善解决了 Hive 在对象存储之上的诸多不足。凌断表示,云原生数仓可以认为是纯粹面向对象存储的数仓方案,业务往往会选择一个全新的技术栈,比如用 Iceberg 代替 Hive,用 AWS Glue 代替 HMS,而 Amoro 提供的 AMS 实现了 Iceberg 的 RESTful Catalog 接口;提供了数据自管理和优化的特性;提供了时效性、性能、成本的度量和管理功能,能够在云原生数仓的场景下作为 Iceberg 的最佳伴侣来使用。

Amoro 既面向数仓用户,也面向平台开发者。过去一年,Amoro 社区已有 20+ 个来自不同企业的开发者参与贡献,10+ 个生产用户案例,其中平台开发者用户占主流。



精耕开源,助推数智原生进化



坚持架构开源、内核开源,包括 Kyuubi 和 Amoro 在内,网易数帆在大数据和云原生领域已先后开源了 8 个项目。与此同时,网易数帆在参与社区贡献方面也不放松。例如,网易数帆在 Apache Spark 社区已诞生了 2 位 Spark Committer,这在国内企业中是独一档。而这两位对 Spark 系统和代码非常熟悉的技术专家的存在,也使得 Kyuubi 与 Spark 的生态能够更融洽地发展。

网易数帆开源贡献也覆盖了有潜力的新兴项目。例如,潘成同时也担任了 Apache 基金会孵化项目 Apache Celeborn (Incubating) 的 PPMC(孵化器项目管理委员会)成员,为该项目孵化提供来自 Kyuubi 的经验。在 Spark on Kubernetes 实践中,网易数帆也使用了 Celeborn 来解决 Spark 核心特性 shuffle 的稳定性、正确性和性能挑战,保证了 Spark 释放计算节点(Executor)不会影响下游作业对 shuffle 数据的读取。这对云原生场景下 Spark 动态资源分配的支持至关重要,使得 Shuffle Service 可以作为一个单独的服务部署,实现更符合云原生理念的弹性伸缩,还可以通过在节点之间平衡存储空间提升存储利用率。

践行开源,网易数帆还关注开源项目与商业软件的耦合性,不断将企业共性需求的技术解耦并放入开源项目中,如 Kyuubi、Loggie、Slime 等多个自主开源项目,其社区版本代码与数帆商业产品集成版本所使用的代码已经完全相同。网易数帆认为,以开源技术普惠企业数智竞争力提升,助推企业向数智原生的未来加速进化,这是一家领先技术企业在数字中国战略下应尽的企业责任。


关于数帆




最后修改时间:2023-08-25 17:18:14
文章转载自Amoro Community,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论