暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

【行业案例】《网易数帆数据中台逻辑数据湖的实践》入选DataFun6月月刊!

927
导读:多年来,数据格局一直在变,数据的功能和预期功能一直在变。
存储成本在大幅下降,而数据的收集手段则在增多。一些数据会瞬间出现,需要不断地进行收集和观察;另一些数据出现速度较慢,但却是很大型的区块,通常是以数十年的历史数据的形式出现。我们在日常工作中遇到的一些问题,可能是高级分析问题,也可能是需要机器学习的问题,而这些都是大数据架构寻求解决的难题。
今天给大家分享11个比较成熟的大数据架构案例。
01
精选案例
1. 《网易数帆数据中台逻辑数据湖的实践》
  • 来源:《大数据技术应用案例手册》,第92
  • 作者李卓豪|网易 数帆有数平台研发负责人
  • 看点者主要介绍了过去15年中,网易大数据团队在应对不断涌现的新需求、新痛点的过程中,逐渐形成的一套逻辑数据湖落地方法。
2. 《小米Hadoop YARN弹性调度的探索与落地》
  • 来源《大数据技术应用案例手册》,第39页
  • 作者:石龙飞|小米 大数据研发工程师
  • 看点:作者首先介绍了小米弹性调度和其诞生背景,随后重点介绍了小米弹性调度的架构设计,以及如何应对落地过程中的种种挑战。对降本增效、资源调度、弹性计算感兴趣的同学可以从中获得启发。
3. 《实时数据湖在字节跳动的实践》
  • 来源《大数据技术应用案例手册》,第55页
  • 作者:杨诗旻|字节跳动 数据湖团队技术负责人
  • 看点:作者首先介绍了字节跳动对数据湖的解读,认为数据湖需要具备六大能力,分别是高效的并发更新能力、智能的查询加速、批流一体的存储、统一的元数据和权限、极致的查询性能,以及AI + BI。随后重点介绍了字节跳动在落地实时数据湖的过程中遇到的一些挑战和应对方式,并结合场景介绍了实时数据湖在字节内部的一些实践案例。
4. 《基于Flink Hudi的增量ETL架构》
  • 来源《大数据技术应用案例手册》,第79页
  • 作者:陈玉兆|阿里巴巴 技术专家
  • 看点作者过去半年在阿里主要负责 Flink 与 Hudi 的集成工作,同时作者也介绍了 Hudi 在数据湖方面的发展方向,文章围绕以下五大方面展开:数仓到数据湖、数据库入仓湖、HUDI 核心,以及Flink HUDI Inc ETL。
5. 《JuiceFS 在数据湖存储架构上的探索》
来源《大数据技术应用案例手册》,第7
作者昌健|Juicedata 技术专家
看点作者首先介绍了大数据存储架构变迁以及它们的优缺点,然后介绍什么是 JuiceFS,再重点介绍关于 JuiceFS 和数据湖的一些结合和关联,最后介绍 JuiceFS 和数据湖生态的集成。
6. 《云原生 ClickHouse 设计》
  • 来源《大数据技术应用案例手册》,第116
  • 作者:衣国垒|(前)腾讯 TEG云架构平台部ClickHouse负责人
  • 看点:作者主要介绍了腾讯TEG云架构平台部在云原生方面对ClickHouse的一些改进,包括ClickHouse当前框架,它在存储与计算方面的一些痛点与问题,并探讨了未来数仓的需求和腾讯在存算分离与MPP查询层的两方面对ClickHouse的改进工作。
7. 《哔哩哔哩在湖仓一体查询加速上的实践与探索》
  • 来源《大数据技术应用案例手册》,第129
  • 作者:李呈祥|哔哩哔哩 技术专家
  • 看点:作者主要介绍了哔哩哔哩在数据湖与数据仓库一体架构下,探索查询加速以及索引增强的一些实践,包括哔哩哔哩目前的湖仓一体架构;湖仓一体架构下,数据的排序组织优化;湖仓一体架构下,索引增强与优化的实践探索。
8. 《京东零售OLAP平台建设和场景实践》
  • 来源《大数据技术应用案例手册》,第148
  • 作者:李阳|京东 OLAP资深研发工程师
  • 看点:管控面可以提供高可靠高效可持续运维保障、快速部署小时交付的能力,尤其是针对ClickHouse这种运维较弱但是性能很高的OLAP核心引擎,管控面就显示得尤其重要。作者从优化技巧、典型业务和618大促备战等方面,介绍了京东零售OLAP平台的建设和场景实践。
9. 《ByteGraph:字节跳动自研万亿级图数据库及其应用与挑战》
  • 来源《大数据技术应用案例手册》,第168
  • 作者:陈宏智|字节跳动 资深研发工程师
  • 看点作为一种基础的数据结构,图数据的应用场景无处不在,如社交、风控、搜广推、生物信息学中的蛋白质分析等。如何高效地对海量的图数据进行存储、查询、计算及分析,是当前业界热门的方向。作者介绍了字节跳动自研的图数据库ByteGraph及其在字节内部的应用和挑战。
10. 《腾讯新闻商业化数据应用》
  • 来源《大数据技术应用案例手册》,第181
  • 作者:罗强|腾讯上海 高级大数据后台工程师
  • 看点随着信息化时代的来临,信息呈现出爆炸式的增长,尤其是在移动互联网的推动下,每天大量信息涌入让人们应接不暇。作者以腾讯新闻为例,分享了面对海量的数据、繁多的业务,改如何处理手中的数据,利用数据赋能。
11. 《Apache SeaTunnel实现非CDC数据抽取实践》
  • 来源《大数据技术应用案例手册》,第22
  • 作者:陈胡|cetc-28 资深大数据开发工程师
  • 看点随着全球数据量的不断增长,越来越多的业务需要支撑高并发、高可用、可扩展、以及海量的数据存储,在这种情况下,适应各种场景的数据存储技术也不断的产生和发展。与此同时,各种数据库之间的同步与转化的需求也不断增多,数据集成成为大数据领域的热门方向,于是SeaTunnel应运而生。SeaTunnel是一个分布式、高性能、易扩展、易使用、用于海量数据(支持实时流式和离线批处理)同步和转化的数据集成平台,架构于Apache Spark和Apache Flink之上。作者主要介绍了SeaTunnel 1.X在交管行业中的应用,以及其中如何实现从Oracle数据库把数据增量导入数仓这样一个具体的场景。
以上是本次分享的全部案例。
这些案例均收录在DataFun202206期月刊-《大数据技术应用案例手册》中,感兴趣的读者可以扫描下方二维码,免费阅读或下载此手册

02

资料目录
DataFun电子月刊是DataFun社区发布的月度资料汇总,免费向所有技术人员开放
《大数据技术应用案例手册》收录了大数据架构、数据治理与安全、物联网最新应用案例,包含20篇技术干货文章,文末赠送5、6月最新内推信息。感兴趣的读者可以点击文末“阅读原文”免费下载。


文章转载自网易杭州研究院,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论