在如今的 “快” 时代中,越多越多的企业开始重视数据的实时性,曾经的主流 “批处理” 已经跟不上数据变换的脚步,开始变得 “拖后腿”。随着技术的升级,开发者们开始思考更多的可能性,于是 “流处理” 思维应运而生,逐渐得到各大企业的垂青。“实时性” 被作为企业构建技术架构的第一考量,并用各类强大的开源引擎如 Apache Flink、Apache Spark、Apache Kafka、Apache Pulsar、Apache Storm 等搭建自己的实时计算平台。 作为孵化了这些项目的 Apache 基金会,自 1998 年以来,每年都会举办一场开源届最期待的大会 ApacheCon,一般都是在欧洲或北美举行。来自全球的 Apache 专家与广大技术爱好者齐聚于此,分享业内最新的技术动态,探索未来的可能性。 今年,ApacheCon 首次针对亚太地区的开发者举行 ApacheCon Asia 在线会议,时间定于 8 月 6 日至 8 日。汇集了流处理、Keynote、大数据、API 微服务、中间件等 14 个专题的 140+ 场议题演讲,大家足不出户即可参加这次开源盛宴。
专题出品人:李钰(绝顶)
李钰,花名绝顶,Apache 软件基金会成员,Apache Flink 及 HBase 开源社区管理委员会成员,阿里云 Flink 存储引擎团队及 EMR 平台技术团队负责人。
1
梅源:Flink 在阿里巴巴的最新动态

梅源 — 阿里巴巴 Flink 引擎的架构师
在本次演讲中,我们将分享近年来阿里巴巴基于 Apache Flink 取得的一些最激动人心的成就,主要包括两个方面:流批一体的架构演进,以及近期为提高流式处理的高可用性所做的努力。
阿里巴巴从 2016 年开始基于 Apache Flink 搭建流计算平台,并热衷于推动 Flink 开源发展。去年,Flink的流批一体功能首次正式应用于天猫双十一的核心场景:媒体大屏实时营销分析,我们将分享这背后的核心技术。此外,Flink从未停止探索更加极致的实时处理能力,在本次演讲中我们也将探讨社区近期在这方面的一些努力和进展。
2
汪磊:流批一体在网易云音乐的实践和规划

汪磊 — 网易云音乐数据职能部数据开发专家
在本次演讲中,我们将主要介绍流计算平台在网易云音乐的发展和现状,在现有的业务基础上要实现批流一体我们面临的挑战和思考,以及我们目前的进展以及未来的规划。
整体大纲如下:
流计算在云音乐发展和现状
实现批流一体的目标和挑战
云音乐在批流一体上思考和实践
未来的方向和规划
3
彭志伟:Spark Structured Streaming 在数据湖准实时场景中的应用

彭志伟 — 阿里云EMR团队技术专家,Apache Calcite Committer
数据湖是目前流行的大数据存储和查询解决方案。Spark Structured Streaming 是一种基于 MiniBatch 执行模式的流处理框架,它可以为数据湖格式的近实时写入提供更好的吞吐量性能。通过 Spark Structured Streaming 技术,可以有效地实现 CDC 数据的近实时写入操作。本文主要介绍 Spark Structured Streaming 在 CDC 数据源进入数据湖现场的应用,以及涉及的技术难点,包括实时合并性能优化、CDC数据的多版本问题以及 CDC Schema变化场景下的解决方案。
4
汤楚熙:美团实时数仓平台的建设实践

汤楚熙 — 实时数仓开发、架构设计领域专家
在这次演讲中,我们将详细介绍美团实时数仓开发工具链的建设实践。
5
范新普:Flink 在奇虎 360 的平台建设演进与典型场景

范新普 — 奇虎 360 系统部的实时计算工程师
在本次演讲中,我们将介绍奇虎360实时计算平台的发展和服务的典型业务场景,大纲如下:
6
Tijo Thomas:使用 Apache Druid 进行高级实时和批量分析

Tijo Thomas — Imply 的高级解决方案架构师
现代流式分析技术擅长以实时或准实时的方式处理数据。同时,其他大数据技术也可以很好地查询历史数据。但是,当查询同时涉及实时数据和历史数据时,这些技术通常无法提供最优结果。
Apache Druid 克服了批处理和实时系统的限制。它将返回实时和历史数据相结合的结果,并保证正确性,从而不需要合并逻辑。因此,Druid 能够快速、灵活地查询实时数据,并且延迟时间不到一秒。
在本次演讲中,我们将回顾基于 Apache Kafka、Apache Flink、Apache Spark 和其他云原生流计算平台构建的用于查询实时和批处理数据的现有分析基础设施的局限性,并介绍 Apache Druid 如何解决相关的问题。
7
Shivji Kumar Jha:结构化的数据流

Shivji Kumar Jha — Nutanix 的高级软件开发人员
8
Timothy Spann:Flink 技术栈与 Flink 的流式处理使用案例

Timothy Spann — Cloudera的首席DataFlow一线工程师
如今,数据是在网络、云和数据中心边缘的设备和容器中生成的。在开始实时流处理之前,我们需要在端侧运行业务逻辑、分析和深度学习。幸运的是,通过 Apache Mm FLaNK 技术栈,我们可以轻松地完成这一点!使用MiNiFi,我们可以摄取数据、执行数据检查、清理、运行机器学习和深度学习模型,并将数据实时路由到 Apache NiFi 和 Apache Kafka 以进行进一步的转换和处理。
Apache Flink 将通过 Apache Kafka topic 提供实时数据写入能力。Apache MXNet 模型将通过 Apache NiFi 和MiNiFi 在端侧和数据中心运行。我们的最终数据将通过Apache NiFi 存储在 Apache Kudu 中以进行最终的 SQL 分析。我们在 Kafka 流中添加微服务。
9
David Kjerrumgaard:使用 Pulsar Functions 处理实时机器学习

David Kjerrumgaard — 《Pulsar in Action》作者,Splunk消息团队首席软件工程师
在这次演讲中,我将介绍一种使用Apache Pulsar Functions部署机器学习模型以提供实时预测的技术。为了提供实时预测,该模型通常从调用者那里接收一个数据点,并期望在几毫秒内提供一个准确的预测。
在整个讲座中,我将展示制作一个完全训练过的ML所需的步骤,它可以根据实时交通信息、客户的位置和将要完成订单的餐厅来预测送餐服务的时间。
10
JhaNishant Bangarwa:使用Apache Kafka、Druid 和 Superset 在数据流上制作交互式实时仪表盘

Nishant Bangarwa — Rilldata 的联合创始人,Apache Druid 与 Apache Superset PMC
为了获得流畅的分析大屏交互体验,快速的响应时间和数据的实时性是两个关键要求。如何选择合适的技术栈以在流式数据上创建快速交互式BI大屏,是公司和组织难以决策的问题。
本文介绍了一个使用 Apache Kafka、Apache Druid 和Apache Superset 的开源实时数据分析技术栈。该技术栈将 Kafka 的低延迟流处理功能与 Druid 的低延迟查询能力结合起来。Superset 提供了可视化和仪表板,能够与 Druid 很好地集成。在本次演讲中,我们将讨论为什么这种体系结构非常适合于流式数据上的交互式应用程序,展示完整技术栈的端到端演示,讨论其关键特性,并讨论生产实践中的性能特征。
11
Tijo Thomas:Apache Druid实时摄取的挑战和最佳实践

Tijo Thomas — Imply 的高级解决方案架构师
现代企业使用 Apache Druid 进行实时数据驱动决策。其中一个关键的挑战是设计一个可靠的数据写入管道,而很多情况下是因为查询的性质因客户和用例而异。
在本次演讲中,我们将介绍通过 Apache Kafka 将数据实时导入 Apache Druid 的一些最佳实践。我们还将讨论一些关于优化实时数据写入、查询性能和可靠性的高级技巧。
时间表
2021-08-07
13:30-14:10
Flink在阿里巴巴的最新动态 中文演讲 梅源
14:10-14:50
批流一体在音乐实践和规划 中文演讲 汪磊
14:50-15:30
Spark Structured Streaming在数据湖准实时场景中的应用 中文演讲 彭志伟
15:30-16:10
美团实时数仓平台的建设实践 中文演讲 汤楚熙
16:10-16:50
Flink在奇虎360的平台建设演进与典型场景 中文演讲 范新普
2021-08-08
13:30-14:10
使用Apache Druid进行高级实时和批量分析 英文演讲 Tijo Thomas
14:10-14:50
结构化的数据流 中文演讲 Shivji Kumar Jha
14:50-15:30
FLaNK技术栈与Flink的流式处理使用案例 英文演讲 Timothy Spann
15:30-16:10
使用 Pulsar Functions处理实时机器学习 英文演讲 David Kjerrumgaard
16:10-16:50
使用Apache Kafka、Druid和Superset在数据流上制作交互式实时仪表 英文演讲 JhaNishant Bangarwa
16:50-17:30
Apache Druid实时摄取的挑战和最佳实践 英文演讲 Tijo Thomas
欢迎点击阅读原文或扫描下方二维码,免费报名 ApacheCon Asia 2021 !






