
OLAP风往哪吹?国内大佬们都在卷什么?敬请关注2023年6月10-11日,09:00-12:30,DataFun举办的第3届OLAP引擎架构峰会,将给你答案!本次峰会由4位专家团成员与7位出品人精心策划而成,共包含:开源OLAP技术、混合存储、分析型湖仓、云原生OLAP、OLAP实时查询与高可用、OLAP最佳实践等6个论坛,邀请30余位来自一线的OLAP专家,进行深度分享交流。本次峰会将全程直播,欢迎大家识别二维码免费报名收看,周末一起卷起来!
▌峰会专家团


▌详细介绍
2023/06/10,周六,09:00-12:30OLAP技术是当前大数据领域的热门方向,该领域在各个行业都有广泛的使用场景,对OLAP引擎的功能有丰富多样的需求。同时,在性能、稳定性和成本方面,也有诸多挑战。目前,OLAP技术没有形成统一的事实标准,开源OLAP技术近些年蓬勃发展,涌现出诸多优秀的项目。本次论坛特别邀请了来自OLAP数据库厂商,云厂商和大型互联网公司的OLAP领域专家,介绍他们在开源OLAP领域的技术探索和项目落地情况。通过本次论坛,听众可以了解到开源OLAP在SQL解析和优化,运行时计算优化,存算分离,稳定性建设,产品化和上层服务建设等多个方面的实践与经验。
个人介绍:美团OLAP计算引擎负责人。有多年大数据开发经验,在美团先后负责离线计算引擎和OLAP计算引擎的开发和优化。个人介绍:毕业于北京航空航天大学计算机技术专业,目前在美团基础研发平台,主要负责OLAP引擎的开发、性能优化相关工作,主要工作内容如下:spark load 导入优化、Doris 向量化改造、Bitmap 精确去重场景优化。演讲题目:Doris Bitmap 精确去重优化实践1. 结合Bitmap 数据结构特征,有哪些优化计算的基本原则?2. 如何调整输入数据的组织形式,以提Bitmap 去重的查询效率?3. 如何结合Doris 引擎,针对高基数Bitmap 聚合进行优化?个人介绍:博士毕业于中科院计算所。SelectDB 高级研发工程师,负责数据库核心引擎模块的研发工作,致力于引擎模块、存储模块以及新优化器的设计与开发;曾创立GPU数据库公司,在VLDB等顶级国际会议发表多篇论文;具有 20 年数据库内核领域的开发与设计经验。高大月 火山引擎 ByteHouse资深研发工程师个人介绍:2020年加入字节跳动参与ByteHouse内核研发,目前负责ByteHouse的架构团队。在此之前曾担任美团OLAP引擎负责人,多个开源OLAP项目的Committer/PMC,有近10年的大数据和OLAP内核研发经验。演讲题目:ByConity 对 ClickHouse 的存算分离实践演讲提纲:ByConity 是火山引擎 ByteHouse 团队研发并开源的云原生 OLAP 引擎。ByConity 采用存算分离架构解决了 ClickHouse 原生架构的诸多问题。本次分享将介绍 ByConity 的整体架构和亮点,以及存算分离的关键设计与实践。1. ByConity 与其他开源 OLAP 系统相比有哪些独到之处?2. ByConity 的存算分离架构有哪些关键设计?3. 存算分离架构在实践过程中会遇到哪些问题,如何进一步优化?个人介绍:硕士毕业于中国科学与技术大学,目前在阿里云负责 Starrocks 内核开发。演讲题目:阿里云 EMR StarRocks 引擎产品化实践演讲提纲:StarRocks 是新一代极速全场景 MPP(Massively Parallel Processing)数据库,致力于构建极速和统一分析体验。本次分享主要介绍 EMR StarRocks 在产品化过程中作出的优化。具体内容包括:2. EMR Starrocks 在稳定性和可观测性方面的工作3. 后续在实时数仓方面结合 paimon 和 binlog 的规划1. 了解 EMR StarRocks 的架构和产品定位周慧通 京东集团 技术研发与数据中心 数据应用工程师个人介绍:2016年本科毕业后就职于中国工商银行软件开发中心担任软件开发工程师,负责业务集中处理系统研发工作,后就职于咪咕视频,担任技术架构师,负责魔百和增值业务系统。现就职于京东集团技术与数据中心,负责数据中台服务研发中心。演讲题目:京东 one- service 数据服务体系建设三大章节,分别讲述了京东数据服务发展的历程,历史上由于业务的极速扩张,导致数据服务的各自独立,无法融合,跨系统查询难度大,由此开始了数据服务一体化的建设路程。随着大数据存储时代的到来,大家对于大容量、高性能和低成本的存储系统的需求愈发迫切。混合存储充分利用不同类型存储器件的特性组成高效的存储系统,既能支持存储系统容量的大幅扩展,又能在保证系统低成本的前提下,显著提高存储系统的性能。于此同时,将混合存储系统中的数据进行统一管理,形成数据编排层,并通过缓存策略来加速数据被上层计算所使用,正逐渐在企业的大数据分析和AI场景中广泛应用。此次分论坛,我们邀请到了来自知乎、Oceanbase、Alluxio、矩阵起源的技术专家一起,为大家带来混合存储和数据编排最新技术发展、产品方案,及两者相结合的用户案例分享。
个人介绍:傅正佳,Alluxio 开源布道师。本科毕业于上海交通大学电子系,随后取得香港中文大学信息工程博士学位,毕业后加入新加坡高级数字科学中心(美国伊利诺伊大学在新加坡的研究所)从事科研工作,在计算机网络和分布式系统领域相关的顶级国际会议发表多篇论文。加入Alluxio前,傅正佳曾在新加坡科技公司Bigo Technology担任机器学习研发总监。演讲提纲:讲师会首先介绍 Alluxio 数据编排的技术原理和适用场景。然后着重介绍在混合云、混合存储架构中,如何实现基于 Alluxio 的数据联邦,为自治数据系统之间共享数据提供桥梁。2. Alluxio 如何缓存数据并保证数据的一致性3. Alluxio 如何帮助用户实现自治数据系统之间数据的共享个人介绍:2019 年加入知乎后一直从事大数据架构开发相关工作,主要工作内容集中于 Flink,HDFS,Alluxio。演讲提纲:随着云原生技术的飞速发展,多云架构已成为当今各大互联网公司的主流架构之一。如何在多个数据中心之间共享数据,是多云架构首先需要解决的问题。本次分享将以知乎的算法场景为主,介绍多云缓存在知乎的演进过程,以及多云缓存组件 Alluxio 在知乎的应用。3. 多云缓存组件 Alluxio 的应用于调优。个人介绍:企业和垂直搜索引擎 Search Formula-1 的实时索引库,以及高并发 Succinct 索引库作者;目前负责 MatrixOne 计算引擎开发。演讲题目:MatrixOne:HTAP 数据库中的 OLAP 设计3. MatrixOne 如何隔离 AP 和 TP1. 了解从零打造的 HTAP 数据库 MatrixOne 的架构设计思路3. 了解兼顾 AP 和 TP 的存储引擎如何设计个人介绍:张鑫,OceanBase开源架构师。曾就职于互联网大厂和金融科技公司,主导过多项数据库升级、迁移、国产化落地等工作。拥有丰富的数据库管理经验,曾负责数据库一体化管控平台研发工作。对各类数据库系统有较深理解,目前深耕分布式数据库的研究与应用。演讲题目:从 TP 到 AP,OceanBase OLAP 核心技术详解演讲提纲:开源数据库 OceanBase 作为一款 HTAP 数据库已经广为人知,实际上,作为原生分布式数据库,OceanBase 从早期版本就具备较好的分析处理能力,近期发布的 4.1 版本,又进一步增强 AP 能力。本次分享将以用户实践案例为基石,主要介绍 OceanBase 数据库核心特性,以及如何在做到极致 TP 的情况下,又具备 AP 的能力,从优化器的各种优化逻辑,到执行引擎的分布式并行执行。1. 了解 OLAP 与 OLTP 的场景差异和设计差别3. 如何更好应用 OceanBase 数据库解决实时数据分析问题随着湖仓技术的持续演进,数据仓库和数据湖方案在快速演进和弥补自身缺陷的同时,二者之间的边界也逐渐淡化,湖上建仓、仓中数据降冷到湖、物化视图、冷热融合查询等方案也越来越多的成为各个公司的标配,各大厂商也陆续提出了自己的湖仓融合方案,通过湖仓融合技术来提升业务使用体验的同时也降低了业务的使用成本。本论坛邀请到了来自腾讯、阿里、Cloudera、炎凰数据、镜舟科技等公司的几位专家,分享关于他们的新一代湖仓融合架构,以及如何使用物化视图加速数据湖查询,并且会分享一些Impala在访问数据湖场景下的性能优化经验,通过本次分享,听众可以了解新一代湖仓湖仓融合架构、物化视图等方向的前沿技术。
出品人:程广旭 腾讯 TEG 数据平台部 专家工程师个人介绍:腾讯大数据 OLAP 平台技术负责人,Apache HBase/InLong PMC 成员,有10年大数据相关工作经验,专注在 OLAP 领域及 KV 存储。演讲提纲:本次分享将会介绍基于天穹 OLAP 平台的实时湖仓融合架构。主要内容包括:个人介绍:哈工大本硕毕业后,进入阿里巴巴云智能集团工作近10年,一直从事大数据分布式计算分析引擎的设计开发工作,重点从事MaxCompute SQL引擎从0到1各个版本的重构设计优化工作。2. MaxCompute SQL引擎物化视图新能力介绍3. MaxCompute SQL引擎Adaptive执行架构揭秘1. 了解MaxCompute 增量处理框架的原理和功能,包括Upsert,timetravel,增量查询等能力2. 了解MaxCompute SQL引擎物化视图的智能推荐以及自动化等新能力3. 了解MaxCompute SQL引擎Adaptive执行架构的原理和新功能黄权隆 Cloudera,Staff Software Engineer个人介绍:黄权隆,Cloudera研发工程师,Apache Impala PMC 成员和 Committer,ORC Committer。毕业于北大计算机系,曾就职于Hulu大数据基础架构团队,参与大数据集群的维护、调优和二次开发。现就职于Cloudera,主要从事Impala系统的开发。演讲提纲:Impala 是一个高性能的 MPP 查询引擎,纯计算无状态的特性使其天然就适合数据湖的场景。本次分享将介绍 Impala 中的性能优化,包括 HashJoin 的优化、Codegen、内存管理等。1. 数据湖查询引擎有哪些挑战?
2. Impala 在 Iceberg 上的优化
3. Impala 在 Codegen 方向的优化
4. Impala 的内存优化
个人介绍:毕业于上海交通大学,一直从事数据处理和数据分析相关的系统研发工作。目前从事于查询引擎开发工作,包括查询解析、执行计划优化、查询调度等内容,致力于提供高效、准确和可扩展的查询引擎解决方案。演讲题目:实时物化视图:加速大规模时间序列数据查询的利器1. 探索实时物化视图的重要性及其在大规模时间序列数据处理中的查询加速作用2. 介绍物化视图的底层实现方式,如预计算、存储和刷新机制等3. 分享炎凰产品实现实时物化视图的关键方法,包括数据划分、自动聚合结果创建和维护,以及实时性更新1. 了解如何处理大规模时间序列数据时实现高性能的聚合查询2. 了解物化视图的局限性,如何有效地利用物化视图加速查询个人介绍:在 StarRocks 主要负责开发查询引擎、物化视图等项目。演讲题目:数据湖超车道:StarRocks 如何借助物化视图加速数据分析演讲提纲:介绍 StarRocks 物化视图功能以及在数据湖分析场景的应用。2023/06/11,周日,09:00-12:30
出品人:姜伟华 阿里云智能资深技术专家,实时数仓Hologres研发负责人个人介绍:姜伟华,复旦大学博士,阿里云资深技术专家,花名果贝,阿里云产品实时数仓Hologres研发负责人,超过10年大数据研发经验,开源社区贡献者,曾创立国内最早的大数据发行版,领导知名公司大数据项目开源,他带领的团队创立了2个Apache开源项目,涌现出超过10名Apache Committer。个人介绍:王奇,阿里云智能高级技术专家,花名慧青,阿里云产品实时数仓 Hologres 研发,超过8年大数据研发经验,目前主要聚焦于 Hologres 分布式、弹性计算等相关工作。演讲题目:弹性计算在阿里云大数据 OLAP 上的实践与思考1. 介绍目前大数据 OLAP 遇到的分析性能、资源隔离、高可用、弹性扩缩容等核心问题2. 解析阿里云 Hologres 是如何解决极致性能、弹性、业务永续、性价比等核心刚需的最佳实践3. 分享阿里云 Hologres 弹性计算组在弹性计算、资源隔离上的探索和创新个人介绍:长期从事大数据和数据应用的研发工作。曾主导某互联网金融企业实时风控平台的产品研发,具有丰富的数据中台建设实践经验。现任三七互娱旗下子公司37手游的数据架构师,主要负责数据仓库和数据中台的建设工作,以及广告归因和广告投放等系统的架构设计。演讲题目:37手游量子智能广告系统基于云原生 OLAP 的应用实践演讲提纲:主要介绍37手游的业务背景及特点,量子系统的介绍及核心业务流程、业务价值,量子系统的技术架构的演进等,还介绍了37手游 OLAP 的实践以及37手游量子系统的一些未来规划。具体内容包括:个人介绍:亚马逊云科技解决方案架构师,负责互联网行业云端架构咨询和设计。曾就职于 NTTDATA,服务国内、海外日企客户。演讲题目:专门构建的云原生数据仓库 Amazon Redshift3. Amazon Redshift 之 Spectrum1. 深入了解 Amazon Redshift 架构2. 深入了解 Amazon Redshift 如何与其他亚马逊云科技服务集成,让客户轻松构建云上湖仓李月/鄢文斌 聚水潭 高级大数据开发专家/资深大数据开发工程师李月,十年数据库、大数据开发和技术架构经验,14年-21年阿里云工作经历,参与了淘宝单元化、集团上云、国际业务全球化等关键业务发展,21年加入聚水潭,主导数仓架构升级,商业化产品研发体系的搭建工作。鄢文斌,19年硕士毕业一直从事数据开发,目前在聚水潭主要负责数据产品的开发工作。1. 对于零售行业 Saas ERP 服务的有体系化认识2. 对于零售电商场景商家工作流、业务痛点、数据智能产品价值有清晰的理解3. 基于阿里云 OLAP 在线服务+实时分析一体化云原生数仓的理解和思考个人介绍:负责诺亚财富数据仓库建设,推动大数据技术在金融领域的落地和应用。之前主要工作:喜马拉雅、百姓网、Ebay 等,硕士毕业于同济大学。演讲题目:诺亚财富金融数字化转型中 OLAP 的探索和实践2. 复杂业务挑战:自建 OLAP 服务集群面临运维难、用数慢、数据割裂等问题3. 技术选型:应对金融领域特征的 OLAP 选择· 金融数据服务快速落地(API、明细数据、看板)数据分析已经成为企业决策的重要工具,而OLAP数据分析则是其中的重要组成部分。在现今快节奏的商业环境中,数据分析的实时性至关重要。实时的数据分析可以帮助企业更快速地发现问题和机会,并做出更明智的决策。而OLAP数据分析则可以提供快速的多维数据分析,帮助企业更好地理解业务情况。同时OLAP具有高可用的特点,但也存在一些影响集群稳定性的因素,如数据或查询不均衡、硬件故障等。本次分享我们邀请到了来自联想、SelectDB、京东、腾梭科技、货拉拉等公司的几位专家,分别从高并发实时查询技术和金融业务实践等方面,为大家分享实时查询场景下的技术内幕和应用。并围绕着ClickHouse、RaftKeeper和Doris等重要技术主题展开,探讨高可用实践和业务应用的关键问题。从技术要点到实际案例,深入了解大数据技术的最新趋势,以及在构建稳定、可靠的数据中台、跨机房高可用集群和稳定性保障方面的挑战和解决方案。通过本次分享,听众可以了解在提升数据时效性和高可用方面的前沿技术态势,以及如何结合业务需求,为企业赋能。

个人介绍:陈明雨,前百度资深研发工程师,Apache Doris PMC 成员。8年分布式系统研发经验,一直专注于分布式可扩展分析型数据库领域。个人介绍:资深架构师,开源爱好者,腾讯云TVP,Apache DolphinScheduler Committer、ClickHouse Contributor,《企业级大数据平台构建:架构与实现》、《ClickHouse原理解析与应用实践》作者,公众号《ClickHouse的秘密基地》运营者,ClickHouse 布道者。个人介绍:贺钰城,多年从事大数据平台架构设计、数据流量分析、数仓建设等关于数据中台建设方向,参与建立了 ClickHouse 中国开源社区 。2010年创建 ptmind 担任 CTO&技术合伙人,2019年加入易观数科担任合伙人。2021年加入联想 ,担任开源优化架构师。演讲提纲:ClickHouse 在联想的数据中台中如何落地已经在高可用方向的探索。个人介绍:毕业于南京师范大学, 曾在百度、字节跳动从事分布式存储研发工作,目前于 SelectDB 从事 Doris 数据库内核研发。演讲提纲:随着越来越多的用户将 Apache Doris 用于构建企业内部的统一分析平台,我们需要面对处理和分析更大规模数据量和更高并发承载的要求。同时,我们也需要满足企业多样化的数据分析需求,从传统的统计报表、即席查询、交互式分析等场景,扩展到推荐、风控、标签画像和物联网等更多业务场景中。其中,数据服务(Data Serving)是其中一类具有代表性的需求,指向用户或企业客户提供数据访问服务,通常是高并发的点查询。在过去,为了满足这类业务需求,通常采用不同的系统组件分别承载对应的查询访问。然而,这种架构复杂,存在冗余存储和高维护成本的问题。随着 Apache Doris 的发展,我们面临着如何更好地满足用户在高并发查询场景下的业务需求的挑战。在即将发布的 2.0 版本中,我们引入了一系列面向点查询的优化手段,极大地拓宽了 Apache Doris 在高并发场景下的能力边界。接下来,我将为大家介绍如何应对高并发查询的挑战,并详细阐述 Apache Doris 2.0 版本中引入的新特性。主要内容包括:2. Apache Doris 2.0 相关新特性揭秘通过以上优化手段和新特性,Apache Doris 可以更好地应对高并发查询的需求,实现单节点上万 QPS 的并发支持。这将大大提升系统的查询性能,降低资源消耗,满足用户在数据服务场景下的业务需求。1. 了解 Doris 中高并发技术, 更合理的建表,提升查询性能2. 引入相关优化技术, 减少对 HBase 等系统的依赖,在 Doris 一套系统内解决问题个人介绍:毕业于西南大学,目前在京东主要负责 OLAP 内核研发和日常运维工作,对大数据系统尤其是 OLAP 系统有兴趣,RaftKeeper、ClickHouse、Poco 等项目活跃开发者。演讲题目:RaftKeeper:构建跨机房高可用 OLAP 集群1. RaftKeeper 分布式共识服务的研发与性能优化实践个人介绍:8年金融科技从业经验、负责全流程产品研发及管理。演讲题目:星云零售信贷基于 Doris 的 OLAP 演进之路杨秋吉/梁健聪 货拉拉 OLAP负责人/大数据工程师个人介绍:货拉拉大数据引擎组-大数据专家/大数据SRE组-大数据工程师。演讲题目:货拉拉大数据 Doris 稳定性保障实践· 货拉拉基于 Doris 的 OLAP 业务介绍1.了解货拉拉基于 Doris 的 OLAP 业务应用2.了解 Doris 引擎特点、掌握如何进行业务稳定性保障、服务稳定性保障多维数据分析是企业信息化和智能化最热门的需求之一,而优秀的OLAP系统是做好多维数据分析的基石。在此基础之上,如何针对特定的业务场景对OLAP系统进行选型,采用可行的满足业务需求的方案解决OLAP实践中遇到的诸多问题,则成为了我们这次论坛关注的重点。好的OLAP实践可以帮助我们有效提升开发效率和节省资源成本,通过本次论坛,听众将了解到来自京东,蚂蚁金服,小米,字节等互联网大厂的专家在OLAP实践中遇到了哪些问题,以及如何优雅地解决这些问题,帮助业务多快好省地完成多维数据分析。
出品人:蔡聪辉 京东智能平台部 数据开发工程师
个人介绍:Apache Doris Committer & PMC,专注于 OLAP 技术领域,对 OLAP 技术的研发,应用和运维等有多年经验。
邬行泽 京东 OLAP 研发工程师
个人介绍:毕业于北京交通大学,20年毕业加入京东,主要负责京东 OLAP 引擎的研发。
演讲题目:OLAP 在京东多维数据分析场景的最佳实践
演讲提纲:
1. 业务现状和需求
2. OLAP 架构与特性
3. 最近实践
听众收益:
1. OLAP 架构分析
2. 查询优化,参数调整,模型设计等如何实践
余志鹏 蚂蚁集团 高级技术专家
个人介绍:毕业13年,在阿里工作5年,主要负责Aliexpress营销平台的建设。在蚂蚁5年,一直在大数据领域,当前主要负责蚂蚁的数据分析平台(DeepInsight)的性能优化工作。
演讲题目:海量数据分析场景下的 OLAP 实践
演讲提纲:随着数字化转型的深入,企业越来越依赖数据进行决策,那么数据决策的效率就成为企业竞争力的关键。那么性能和决策效率之间有什么关系呢?为什么性能问题会成为决策效率的关键?蚂蚁海量的数据场景下,是如何解决这些性能问题的。本次分享的主要内容包括:
1. 蚂蚁分析场景的性能问题
2. 过去如何解决这些问题
3. 当下我们的解决方案
4. 未来可行的一些方案
听众收益:
1. 了解蚂蚁场景下的分析特点,可能跟你这边的场景类似。
2. 现在蚂蚁的一些解决方案可能对你有所启发。
魏祚 小米集团 数据库内核研发工程师
个人介绍:魏祚,小米集团数据库内核研发工程师、Apache Doris Committer & PMC,在小米集团负责 OLAP 系统的研发、优化和运维工作。
演讲题目:小米集团基于 Apache Doris 的 OLAP 实践
演讲提纲:
Apache Doris 在小米集团有着广泛的应用,支持了小米内部近百个核心业务,并且在小米内部已经形成了一套以 Apache Doris 为核心的数据生态。本次演讲将重点分享 Apache Doris 在小米的使用情况以及 Apache Doris 在小米 OLAP 场景的应用实践。
听众收益:
1. 了解 Apache Doris 在小米集团的使用情况。
2. 了解大数据场景下的 OLAP 解决方案。
琚克俭 火山引擎 EMR 研发工程师
演讲题目:OLAP 在火山 EMR 的实践
演讲提纲:
1. 火山 EMR 的产品定位
2. OLAP 的云原生能力
3. OLAP 的引擎能力
4. EMR 客户实践
5. 未来规划
听众收益:云上 OLAP 的优势和 OLAP 的选型

▌相关福利
限时 200 份,免费邮寄打印版《OLAP知识地图 专业版1.0》,扫码获取领取方式!