



/ 精彩议程
演讲介绍:在线数据库数据导入到数仓分析的链路已经存在多年,随着近年来实时计算的发展,业务希望有延迟更低、运维更便捷、效率更高的CDC同步通道。本次分享主要介绍DataSail实现CDC整库实时同步的技术方案和业务实践。
主要内容:
● CDC数据同步对业务的价值
● DataSail CDC同步实现技术方案
● 业务最佳实践
演讲介绍:基于对象存储的存算分离架构,在提升系统稳定性,提高资源利用率,降低运维成本的同时,在大数据量分析场景下也面临着一些核心挑战:HDFS与对象存储之间的语义差异;存算分离之后带来的较大性能损耗。
EMR团队针对这些挑战自研了Proton加速引擎,深度优化对象存储读写能力,与Hive/Spark/Trino等计算引擎集成后,在不改变用户使用习惯的前提条件下,可提供对象存储数据集的透明加速服务。在离线场景下,其性能基本持平存算一体架构。本次分享将介绍Proton技术能力和最佳实践。
主要内容:
● 存算分离的挑战以及解决方案
● Proton介绍以及原理分析
● Proton最佳实践
演讲介绍:随着数字化转型的推进以及业务数仓建设不断完善,大数据开发体量及复杂性逐步上升,如何保证数据稳定、正确、持续产出成为数据开发者核心诉求,也成为平台建设面临的挑战之一。本次分享主要介绍字节对于DataOps的理解 以及 DataOps在内部业务如何落地实践。
主要内容:
● 字节数据研发面临的挑战
● 字节 DataOps 定义
● DataOps 产品化方案
● 业务最佳实践
演讲介绍:ByteHouse基于自研HaMergeTree,构建增强型物化MySQL、HaKafka引擎,实现数据快速集成,加速业务数据分析性能与效率,本次talk主要介绍物化MySQL与HaKafka数据导入方案和业务实践。
主要内容:
● ByteHouse数据库架构演进
● 增强HaKafka引擎实现方案
● 增强MaterializedMySQL实现方案
● 案例实践与未来展望
演讲介绍:Spark、Presto等引擎原Java执行的性能优化进入瓶颈期,而基于向量化和编译优化的native引擎,可获两倍性能加速比,降低资源成本。Bolt已经在字节跳动内部SparkSQL、Presto大规模上线,加速效果显著,其特色有:面向多场景统一加速、端到端向量化执行。本次分享将介绍Bolt的意义、架构和在LAS的应用实践。
主要内容:
● Bolt的背景和意义
● Bolt的架构设计
● Bolt的核心特色
● Bolt在湖仓一体产品LAS的实践
产品介绍
BitSail支持20多种异构数据源间的数据同步,并提供离线、实时、全量、增量场景下的全域数据集成解决方案,目前服务于字节内部几乎所有业务线,包括抖音、今日头条等大家耳熟能详的应用,同时也支撑了火山引擎多个客户的数据集成需求。后台回复数字“12”了解更多信息。








