暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

从开源到行业标准|Flink背后的中国力量

Flink 中文社区 2024-12-04
162

摘要:如果说,阿里云以一己之力捧红了Flink,这并不夸张。十年间,这个曾默默无闻的学术项目完成了一次惊艳逆袭,成为全球实时计算领域的“事实标准”。而这一切的背后,既有Flink自身潜力的爆发,也离不开阿里云的全力扶持。


Flink Forward Asia 2024大会现场:莫问演讲中


就在今日(11月29日),Flink Forward Asia 2024 在上海拉开帷幕,这场汇聚了全球开发者和行业专家的年度盛会,既是一次技术分享的高光时刻,也为Flink的十周年献上了一场科技庆典。


会上,阿里云智能研究员、开源大数据平台负责人王峰(花名:莫问)在接受老鱼采访时,回忆起Flink从实验室走向全球舞台的传奇历程,讲述了一个改变实时计算行业规则的技术故事。


从实验室走出的技术新星


2009年,故事的起点。德国柏林工业大学的一个年轻科研团队发起了一个项目,起初它有个不算响亮的名字——Stratosphere。他们的目标是打造一套面向大数据的先进处理框架。


后来,这个项目改名为Flink(德语意为“迅捷”),并被捐赠给了Apache基金会,成为开源社区的一份子。Flink最初聚焦在批处理领域,希望能挑战Hadoop等当时的技术巨头。但团队很快发现,批处理市场竞争激烈,尤其是在德国这样的市场环境中,行业规模有限,很难找到突破口。


后来,Flink团队果断做出战略调整,转向实时流计算领域。相比批处理,流计算能够实时处理数据,满足企业对“实时性”需求不断增加的趋势。正是这一关键决定,让Flink找到了属于自己的赛道,也为后来的崛起埋下了伏笔。


到了2014年,Flink团队成立了一家公司 Data Artisans(后更名为Ververica),专注于Flink的商业化探索。同年,Flink正式从Apache孵化器毕业,成为顶级开源项目。这一年,它真正从一个科研项目变成了一个被全球开发者拥抱的开源明星。


阿里云遇上Flink


2015年,阿里巴巴遇到了自己的技术拐点。随着搜索、推荐、广告等核心业务的快速发展,阿里需要更高效的实时数据处理能力。然而,现有的技术架构已经不能满足需求。在全球范围内调研了一圈后,阿里的技术团队发现,Flink的架构设计和流处理能力潜力巨大,正是他们需要的那一块拼图。


经过一年多的优化和改造,2016年,阿里正式推出了Flink的内部版本“Blink”,并首次将其应用于双十一的业务场景中。这是一个超级复杂的技术挑战,但Blink的表现让阿里团队大受震撼:任务量骤增时依然游刃有余,大规模数据处理更加高效。这一战役的胜利,不仅让阿里对Flink的技术前景充满信心,也坚定了深耕这项技术的决心。


从开源到行业标准的中国力量


双十一的成功验证之后,阿里意识到,Flink的潜力不仅在内部应用,还可以助力更多企业完成技术升级。于是,从2017年起,阿里开始大规模推广Flink的使用经验,向国内开发者和企业分享技术实践。


很快,滴滴、美团、字节跳动、京东等互联网巨头纷纷引入Flink,而金融、物流等传统行业也加入进来。短短几年,Flink迅速成为中国实时计算的“标配”。


2019年,阿里巴巴更进一步,以1.03亿美元收购了Data Artisans。这笔收购堪称战略级:不仅强化了技术团队,还为Flink的发展注入更多资源。同年,阿里将内部优化的Blink分支——超过150万行代码贡献回开源社区。这一举措极大提升了Flink的生产级能力,也加速了它在国际化道路上的发展。


技术创新:从领先到引领


阿里在Flink的开源旅程中扮演的角色,绝不仅是“使用者”。它不仅是Flink开源社区的核心推动者,更是技术创新和生态构建的重要贡献者。从关键代码的回馈到生态的完善,阿里为Flink注入了源源不断的动力:


Blink的捐赠:阿里将经过内部优化的Blink代码贡献回社区,大幅提升了Flink的流批一体化能力。这一升级不仅提高了效率,还让开发者无需为流处理和批处理的选择纠结,极大降低了技术门槛。


Flink CDC:一项为企业实时数据同步而生的技术,帮助解决了数据整合中的复杂难题,被广泛应用于数据集成和湖仓建设。


Apache Paimon:一个为实时湖仓设计的新工具,进一步扩展了Flink的生态边界,让企业在构建实时数据基础设施时有了更灵活的选择。


坚定投入Flink并持续回馈社区,这是阿里云坚定开源策略的缩影。数据显示,过去十余年,阿里云共开源2000余个项目,和生态伙伴一起向开源社区贡献超100亿行代码,阿里巴巴还曾连续十年蝉联中国企业开源影响力第一,稳居参与开源人数最多的中国科技公司。


未雨绸缪:从人才到社区的双重保障


有一件事鲜为人知,阿里在2019年收购Data Artisans时,当时其实已经预判到核心团队二次创业的风险,毕竟前车之鉴并不少。因此,早早布局,通过培养本土技术骨干来“接棒”社区的核心研发工作。


事实证明,阿里的担忧是有备无患。尽管几年后部分原欧洲团队成员选择创业,甚至成立了新公司,但离开的并非核心技术贡献者。而阿里的技术团队迅速填补了空白,凭借一批自主培养的Committer和PMC成员接管了社区的关键岗位,确保了Flink社区的持续创新与稳定发展。


截至目前,阿里累计培养了约50名Committer和PMC成员,这些人才中即便有部分已离职,仍活跃于其他公司并继续为Flink社区贡献力量。这种“松绑”的人才模式不仅扩大了社区的技术输出,阿里对Flink的态度也清晰明朗:不谋求独占,而是希望通过开放的生态促进技术演进,让实时计算的价值普惠更多行业和企业。


开放与多样性:社区发展的长久之道


开源社区的生命力,离不开开放性和多样性。阿里云深谙这一点。


在Flink的推广过程中,阿里并没有试图垄断话语权,而是积极吸引更多企业和开发者加入社区建设。从国内的字节跳动、美团,到国际上的AWS、Google等巨头,Flink的生态圈越来越大,也越来越国际化。


特别是在美国市场,Flink的影响力近年来显著提升,而这一点离不开全球化社区的协作。据统计,截至2024年10月,全球范围内参与Flink代码贡献的开发者中,44%来自中国,美国、德国等国家的开发者比例也在不断提高。这一趋势显示,Flink已经从一项欧洲起步的技术,成长为真正的全球化项目。


从Flink 2.0看实时计算的未来


Flink Forward Asia 2024 大会上,Flink迎来了一个重要的里程碑:2.0版本的预发布。这不仅是一场版本升级,更是对实时计算未来的重新定义,这次升级推出了三大核心创新,每一项都直击实时计算领域的痛点:


存算分离:不再依赖本地存储,而是将计算和存储解耦,实现了云端无缝扩展。这个突破带来了更高的容灾能力和弹性,企业再也不用担心数据处理高峰期的性能瓶颈。


流批一体化:以统一的框架处理流式和批式任务,彻底解决了传统上两者之间的割裂。用户无需为不同的任务类型设计复杂的逻辑,只需专注于业务目标。


新存储引擎ForSt DB:专为流计算打造的对象存储方案,优化了数据吞吐和延迟表现,打破了传统存储技术的性能瓶颈。


这些技术创新不仅巩固了Flink在实时计算领域的技术领先地位,还降低了企业的使用门槛,让更多行业能够轻松拥抱实时计算的价值。



Flink Forward Asia 2024大会现场:阿里云开源Fluss


在大会现场,阿里云还宣布开源名为Fluss(Flink Unified Streaming Storage)的下一代流存储项目。该项目专为湖仓架构打造,作为Flink的专属实时流存储底座,能够显著提升Flink的实时流计算能力。自即日起,全球开发者均可前往Github下载并使用该项目。


“流批一体化”:重新定义数据处理


不过,关于“流批一体化”也存在争议的声音。有人质疑:“流处理用Flink,批处理用Spark,为什么要在一个流式引擎里强行实现批处理?” 这种观点并不少见,但也反映了对传统数据处理模式的固化思维。


在莫问的观点中,这种思维忽略了业务需求正在发生的深刻变化。传统市场中,“在线业务用流处理,离线业务用批处理”的模式已十分成熟,但这一模式的局限性也越来越明显,尤其是在以下场景中:


动态更新需求:白天需要实时处理高频数据流,而夜间要进行大规模离线数据计算。传统模式需要设计两套独立的逻辑来应对这两种需求。


多频次更新:像每10分钟、15分钟甚至每半小时更新的数据处理需求,既不完全属于流处理,也不能简单归为批处理。


这种割裂的架构不仅导致数据存储和逻辑的分离,比如白天流处理的数据要与夜间批处理的数据合并入库,还增加了开发和维护的成本。


为了解决这些痛点,“流批融合”提出了一种全新的方法论。需要强调的是,流批融合并不是试图用流计算替代批处理,而是提供了一种全新的视角和工具:


统一逻辑,简化开发:开发者可以用一个框架同时处理实时和离线数据,避免在多个系统之间切换。


高效利用资源:统一的引擎能根据任务需求灵活调配资源,大大提高了系统的整体效率。


降低维护成本:从API到逻辑到存储,流批一体化减少了架构复杂性,帮助企业更轻松地适应多变的业务需求。


“流批一体”就像给开发者提供了一把瑞士军刀:你不需要为每种数据处理任务寻找独立的工具,而是用一个灵活且强大的平台来满足所有需求。


写在最后:开源的未来,Flink的征途


十年,Flink从实验室走向全球,从默默无闻到行业标准。这背后既有Flink团队的技术探索,也有阿里的全力推动。这必然会成为中国技术开源界的一段佳话,更重要的是,这个故事让世界看到了中国企业在开源领域的影响力和技术实力。


然而,开源的故事没有终点。实时计算的时代才刚刚开始,而Flink的征途,也依然充满悬念和期待。未来,阿里是否还能在这片领域继续引领?Flink能否在更激烈的竞争中再进一步?时间会告诉我们答案。


- END -

     
 
活动推荐
阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
新用户复制下方链接或者扫描二维码即可0元免费试用 Flink + Paimon
了解活动详情:https://free.aliyun.com/?pipCode=sc



▼ 关注「Apache Flink」,获取更多技术干货 


   点击「阅读原文」前往 Flink Forward Asia 2024 官网~

文章转载自Flink 中文社区,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论