暂无图片
返回数说广场
杜红林
2022-12-14
Hadoop时代,大数据从业者如何应对新技术挑战?-- 摘自搜狐新闻 作为开源大数据项目的发端,Hadoop 兴起至今已经超过十五年。以Hadoop为核心的开源大数据体系,从2015年开始转变为多元化技术并行发展,多元化、一体化、云原生成为当前开源大数据发展趋势的最显著特征。 一方面,原有 Hadoop 体系的产品迭代趋于稳定。部分 Hadoop 生态项目(如 HDFS)成为其他新兴技术的基础依赖,一些常见的开源大数据组件组合,比如 Flink+Kafka、Spark+HDFS 等,已经成为相对固定的标准化选择。 另一方面,开发者的热情分别涌向[搜索与分析]、[流处理]、[数据可视化]、[交互式分析]、[DataOps]、[数据湖]六大技术热点领域,每个热点领域集中解决某个特定场景问题。 相比已经趋于稳定的原 Hadoop 体系,新场景之下,如数据治理分析、流式计算 +OLAP、数据湖等,开源大数据组件仍然在不断推陈出新,未来存在比较多变数。 首先,大部分业务场景都需要多个大数据组件互相配合使用,这就要求技术团队同时掌握很多不同的大数据组件,并且要能融会贯通、知道如何将这些组件更好地组合到一起。 其次,当业务规模增大,企业对大数据平台的稳定性、安全性和高可用能力的要求也会随之提高,必然会增加构建大数据平台的复杂性。 以上挑战,可以通过云上标准化产品在一定程度上解决掉。从 2020 年开始, Spark、 Kafka、Flink 等主流项目也陆续正式支持 Kubernetes。与云原生结合更紧密的 Airbyte、Flink CDC、 SeaTunnel、 InLong 等项目飞速发展。调度基础现在基本基于 Kubernetes 来做编排和调度。云存储加速有开源项目如 JuiceFS、Alluxio 等。 以下三个方向是大数据从业者可以重点关注的。 1. 首先是云化,即用云来解决系统架构的问题,涵盖了离线实时一体化、大数据 AI 一体化、流批一体化、湖仓一体化四个层面。 2. 其次是上层数据应用会变得更加简单,从长远来看,对于最终用户,所有的数据都可以使用通用的 SQL 方式进行分析。 3. 最后,数据平台要走向标准化。从整个应用市场的角度来说,形成标准化之后,各方能够比较低成本地去接入这个数据工程生态,反过来可以一起把整个市场蛋糕做大。
0
暂无图片 0
318
分享

评论

热门数说