活动｜数智化转型背景下的火山引擎大数据技术揭秘

字节跳动数据平台 2023-08-29

137

今年4月，火山引擎在上海举办了春季 FORCE 原动力大会，正式提出了“数据飞轮”的数字化建设模式。

现如今，越来越多的企业也正围绕数据进行深度的价值挖掘，用数据全方位地驱动业务增长。如何让数据“说话”，更好的帮助企业实现科学决策，并助力企业完成数字化转型？

9月16日，火山引擎开发者社区 Meetup 第12期暨超话数据专场邀请到了火山引擎数据平台的五位专家，将从数据分析、数据治理、研发提效等角度，为大家带来干货分享，帮你全面了解数智化转型背景下的火山引擎数据飞轮模式在数据资产建设上的技术与实践。

现场更有火山引擎定制双肩包、抱枕、水杯、帆布袋等超多精美礼品，线下参与才可领取哦，期待与大家现场见面交流！

⏰ 活动时间：

2023/9/16（周六）14:00-17:30

📱活动形式：

线下+线上直播

🚇 地点：

深圳市南山区高新南九道

深圳湾创新科技中心2栋B座F6-31&32

（科苑地铁站C口步行340米）

💡 参与方式：

扫码立即报名！

扫码进入活动群！

/ 精彩议程

演讲一：《DataSail CDC数据整库实时入仓入湖实践》

讲师：李延加火山引擎 DataSail 高级研发工程师

演讲介绍：在线数据库数据导入到数仓分析的链路已经存在多年，随着近年来实时计算的发展，业务希望有延迟更低、运维更便捷、效率更高的CDC同步通道。本次分享主要介绍DataSail实现CDC整库实时同步的技术方案和业务实践。

主要内容：

● CDC数据同步对业务的价值

● DataSail CDC同步实现技术方案

● 业务最佳实践

听众受益：

● 了解DataSail整库实时同步背后的技术

● 了解DataSail整库实时同步产品的能力

演讲二：《火山引擎EMR基于Proton的存算分离实践》

讲师：吴志平火山引擎 EMR 研发工程师

演讲介绍：基于对象存储的存算分离架构，在提升系统稳定性，提高资源利用率，降低运维成本的同时，在大数据量分析场景下也面临着一些核心挑战：HDFS与对象存储之间的语义差异；存算分离之后带来的较大性能损耗。

EMR团队针对这些挑战自研了Proton加速引擎，深度优化对象存储读写能力，与Hive/Spark/Trino等计算引擎集成后，在不改变用户使用习惯的前提条件下，可提供对象存储数据集的透明加速服务。在离线场景下，其性能基本持平存算一体架构。本次分享将介绍Proton技术能力和最佳实践。

主要内容：

● 存算分离的挑战以及解决方案

● Proton介绍以及原理分析

● Proton最佳实践

听众受益：

● 了解对象存储和HDFS的差异

● 了解Proton的基本能力以及实践方式

演讲三：《字节跳动基于 DataLeap 的 DataOps 实践》

讲师：黄虹火山引擎 DataLeap 产品经理

演讲介绍：随着数字化转型的推进以及业务数仓建设不断完善，大数据开发体量及复杂性逐步上升，如何保证数据稳定、正确、持续产出成为数据开发者核心诉求，也成为平台建设面临的挑战之一。本次分享主要介绍字节对于DataOps的理解以及 DataOps在内部业务如何落地实践。

主要内容：

● 字节数据研发面临的挑战

● 字节 DataOps 定义

● DataOps 产品化方案

● 业务最佳实践

听众受益：

● 了解 DataOps 理念

● 了解 DataOps在字节业务的最佳实践

演讲四：《基于 ByteHouse 引擎的增强型数据导入技术实践》

讲师：孔柏林火山引擎 ByteHouse 产品经理

演讲介绍：ByteHouse基于自研HaMergeTree，构建增强型物化MySQL、HaKafka引擎，实现数据快速集成，加速业务数据分析性能与效率，本次talk主要介绍物化MySQL与HaKafka数据导入方案和业务实践。

主要内容：

● ByteHouse数据库架构演进

● 增强HaKafka引擎实现方案

● 增强MaterializedMySQL实现方案

● 案例实践与未来展望

听众受益：

● 了解Bytehouse基于引擎层数据导入能力

● MaterializedMySQL和HaKafka在业务中的实践

演讲五：《湖仓一体加速引擎 Bolt 及在 LAS 的应用实践》

讲师：杨嘉义火山引擎 LAS 高级研发工程师

演讲介绍：Spark、Presto等引擎原Java执行的性能优化进入瓶颈期，而基于向量化和编译优化的native引擎，可获两倍性能加速比，降低资源成本。Bolt已经在字节跳动内部SparkSQL、Presto大规模上线，加速效果显著，其特色有：面向多场景统一加速、端到端向量化执行。本次分享将介绍Bolt的意义、架构和在LAS的应用实践。

主要内容：

● Bolt的背景和意义

● Bolt的架构设计

● Bolt的核心特色

● Bolt在湖仓一体产品LAS的实践

听众受益：

● 了解基于向量化和编译优化的Bolt加速引擎

● 了解Bolt在湖仓一体产品LAS的应用

点击【阅读原文】也可以报名哦～

快喊上更多小伙伴一起现场打卡吧！

期待与大家深圳见面！

产品介绍

火山引擎大数据研发治理套件DataLeap

一站式数据中台套件，帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设，帮助数据团队有效的降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。后台回复数字“2”了解产品。

火山引擎云原生数据仓库 ByteHouse

云原生数据仓库，为用户提供极速分析体验，能够支撑实时数据分析和海量数据离线分析。便捷的弹性扩缩容能力，极致分析性能和丰富的企业级特性，助力客户数字化转型。后台回复数字“6”了解产品

火山引擎云原生开源大数据 E-MapReduce

Stateless 云原生开源大数据平台，提供企业级的 Hadoop、Spark、Flink、Hive、Presto、Kafka、ClickHouse、Hudi、Iceberg 等大数据生态组件，100%开源兼容，支持构建实时数据湖、数据仓库、湖仓一体等数据平台架构，帮助用户轻松完成企业大数据平台的建设，降低运维门槛，快速形成大数据分析能力。后台回复数字“3”了解产品

火山引擎湖仓一体分析服务 LAS

面向湖仓一体架构的 Serverless 数据处理分析服务，提供源自字节跳动最佳实践的一站式 EB 级海量数据存储计算和交互分析能力，兼容 Spark、Presto、Flink 生态，帮助企业轻松构建智能实时湖仓。后台回复数字“4”了解产品

字节跳动开源数据集成引擎BitSail

BitSail是字节跳动自研的数据集成引擎，于2022年10月26日正式开源。
BitSail支持20多种异构数据源间的数据同步，并提供离线、实时、全量、增量场景下的全域数据集成解决方案，目前服务于字节内部几乎所有业务线，包括抖音、今日头条等大家耳熟能详的应用，同时也支撑了火山引擎多个客户的数据集成需求。后台回复数字“12”了解更多信息。

--推荐阅读--

大数据

文章转载自字节跳动数据平台，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

活动｜数智化转型背景下的火山引擎大数据技术揭秘

/ 精彩议程

评论