暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Apache Amoro & Flink FFA 2024 赠票啦~

Amoro Community 2024-11-26
75
Flink Forward Asia 2024 即将盛大开幕!
作为 Apache Flink 社区备受期待的年度盛会之一,本届大会将于 11 月 29 至 30 日上海 隆重举行。Flink Forward Asia(简称 FFA)是由 Apache 官方授权的社区技术大会,旨在汇聚领先的行业实践与技术动态。在众多合作伙伴和技术开发者的支持下,FFA 已成功举办六届。

适逢 Apache Flink 诞生 10 周年,今年的 FFA 将与广大开发者分享 Flink 过去十年在技术和生态方面的演进历程及关键成果。同时,基于当前 AI 时代的新场景,展望未来十年 Flink 的发展方向和规划。大会还将为您提供全面了解 Flink 2.0 版本的机会,并与业界领袖共同探讨 Apache Flink 的过去、现在及未来,以及其在实际应用中的潜力。

FFA 2024 核心技术专场由 Apache Flink 核心贡献者与来自阿里云智能、腾讯云、字节跳动、小红书、货拉拉、蚂蚁金服、Shopee等公司的一线技术专家解析 Flink 技术动向与应用实践,重点探讨 Flink 的核心技术(如状态管理、容错机制、数据传输、大规模调度和核心算法等)在实际生产环境中面临的挑战,以及如何通过最佳实践来进行扩展和改进。

Apache Amoro & Flink Forward Asia 2024 入选三大主题

天翼云实时湖仓生产实践

Date: 11月30日

Time: 16:40-17:20

Speakers:

邱从贤 :

技术专家,Apache Flink Committer



邱从贤老师分享了天翼云在实时湖仓生产实践 中的技术经验与思考。针对单表数据量亿级、单天更新频度超 100% 的场景,深入探讨了数据入湖的挑战与解决方案,包括:

  • 基于 FlinkCDC 3.0 的实时入湖挑战
    • 时间字段统一、隔离性保障、分库分表同步
    • 新 Connector 的 Schema 演化兼容
    • 安全性问题

  • 高频更新场景
    • 优化存储压力、提升读取性能,并在高并发下保证整体系统性能。
    • 单表数据量在亿级别,单天更新频度超过 100%


同时,邱老师也展望了天翼云未来在数据湖领域的规划和实践,持续优化实时湖仓架构,推动数据湖技术的深度应用与创新。


Amoro + CDC 构建数据入湖管理新体验

Date: 11月30日

Time: 11:30-12:10

Speakers:

陈政羽 :

高级大数据开发工程师,Apache Amoro PPMC Member


陈政羽老师分享了货拉拉在CDC+湖仓生产探索中的技术经验与思考。针对当前业务方业务需求和痛点,基于Amoro构建Flink CDC + Amoro 入湖新体验。


Flink CDC 在货拉拉应用


    • 数据湖是什么:数据湖是一种高效、灵活的存储架构,支持大规模、多类型数据的存储与分析。
    • 数据入湖场景:包括批处理、流处理,以及 ACID/Append 场景在货拉拉的需求。
    • 货拉拉在Flink CDC 的稳定性建设:包括CDC GH-OST Schema Change,自定义协议和解析等
    • CDC 高效入湖架构:解析高吞吐、低延迟的 CDC 数据同步架构


数据入湖新体验

    • CDC 数据 Pipeline 一键入湖:介绍Paimon入湖YAML作业的流程与操作。
    • 入湖挑战:如 Schema 演化、性能优化、数据质量安全性问题等
    • 入湖新架构:基于Amoro的入湖新架构体验


Amoro 入湖优化

    • 文件优化与合并:通过 Amoro 实现高效小文件合并与优化并对比优化前与优化后的效果
    • 数据分支/Tag/Snapshot 管控:灵活管理数据版本与快照。
    • 文件优化:碎片优化原理,Flink Mixed Format 支持CDC场景
    • 湖上数据管控:提供全面的数据管理能力,支持高效协作与运维


未来规划

    • 湖仓一体化新体验:基于 Dinky + CDC + Amoro 的深度集成。
    • Paimon 小文件合并支持:进一步优化存储效率。
    • Amoro + CDC 可视化:提升入湖作业的可见性与易用性。


货拉拉基于Paimon的湖仓思考与实践

Date: 11月30日

Time: 16:40-17:20

Speakers:

王世涛 :

货拉拉大数据实时离线任务平台负责人

陈政羽 :

货拉拉大数据高级开发工程师,Apache Amoro PPMC Member


湖仓架构模式的思考

湖仓一体化架构正在成为数据存储与计算的主流趋势,其融合优势体现在高效的数据处理、灵活的存储方式和多场景支持。货拉拉科技作为货运行业的领先者,在数据湖爆发元年,数据平台组紧扣业务需求,通过数据湖加速业务落地,赋能业务增长。

数据湖系统能力建设

    • 数据多种入湖方式支持:覆盖批量导入、实时同步等多样化场景。
    • 实时任务列级血缘管理:实现细粒度的血缘追踪,保障任务透明性。
    • Catalog 管理和 Schema 演化支持:动态适配 Schema 演化,确保兼容性与扩展性。
    • 多云及多对象存储支持:支持跨云部署与多存储兼容,提升灵活性与可靠性。


数据湖关键能力建设

    • 原生指标与埋点支持:通过原生指标监控与埋点分析,优化湖内数据质量与性能。
    • 关键参数自优化:针对读写任务和计算引擎,构建参数自优化机制。
    • 多读写场景支持:满足多读多写、历史数据读取、热点数据访问等复杂需求,提升应用效率。


数据湖在数据领域的应用

    • 数据质量:通过完整性、准确性校验,提升数据可信度。
    • 数据回放:支持回溯历史数据,用于分析与问题定位。
    • 数据追踪 (Trace):记录数据全生命周期,便于问题排查与管理。
    • 业务波动告警:基于数据波动的实时监控与告警,助力业务稳定运行。





其余精彩议题请访问 Apache Flink 公众号文章

FFA 2024 上海站|大会全议程正式上线!

社区门票赠送福利:参与转发点赞数超过20个即可有机会赢得Flink Foraward Asia 门票一张,欢迎大家积极参与转发和评论(门票数量有限,先到先得)。完成后截图发送至后台,按照发送先后顺序送出参观门票一张。


END

看到这里记得关注、点赞、转发 一键三连哦~


精彩回顾:

Amoro:高效管理湖仓的开源解决方案

浙江电信基于 Amoro + Apache Iceberg 构建实时湖仓实践

有道基于 Amoro Mixed Format 构建准实时湖仓实践

思科基于 Amoro + Apache Iceberg 构建云原生湖仓实践


关于 Apache Amoro 的更多资讯可查看:
官网:https://amoro.apache.org/
源码:https://github.com/apache/amoro
社群:后台回复【社群】或扫描下方二维码↓,邀你进群



文章转载自Amoro Community,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论