
本文节选自马如悦在 Doris Summit Asia 2024 上的演讲,以马如悦第一人称叙述,经编辑。
最具影响力开源大数据项目之一

全球中大型企业规模突破 5000 家

2024 年,Apache Doris 重点推出了 3.0 版本,这一版本是研发之路上的重要里程碑。其缘由在于,自诞生之初,Apache Doris 就定位于现代化实时数据仓库。在 3.0 版本之前,尽管它在很多特性上都非常领先、大受欢迎,但并未完全实现现代化特性。然而,"现代化"这一理念在 3.0 版本中得以全面实现,并得到了充分的验证。接下来,我将从实时、统一和弹性三个方面,介绍 Apache Doris 在现代化数据仓库创新之路上的进展。
Real-Time,实时之路

01 秒级实时数据写入
秒级实时数据写入:支持秒级的实时数据写入,能够通过高效的 StreamLoad 和 Insert Into 功能实现快速数据导入。此外,它还支持服务端的批量 Group Commit,提升数据高频实时写入的效率。同时,Doris 可自动从 Kafka 拉取数据,并支持数据库的 CDC、Flink 和 Spark 的实时数据导入,并均可实现秒级入库。 高性能数据更新:引入基于 Merge-on-Write 的主键模型,该表模型在数据写入时即对需要删除或更新的数据进行标记,始终保证有效的主键只出现一个文件中。同时,Doris 也支持 UPSERT 操作,包括条件更新、条件删除和部分列更新,以及基于 Sequence 列的并发导入事务。这对于高频写入的场景来说,大大减少了查询执行时的额外消耗。 轻量级元数据变更:支持轻量级的元数据变更操作,如更改列名、增加或删除值列,以及调整 Varchar 列的长度等。这些操作可在毫秒级别内完成,确保数据能够实时更新,满足实时性需求。
02 极速交互式分析性能
在 ClickBench 测试中,Apache Doris 分别在 2022、2024 年 10 月,在榜单上领先所有工业界数据库 。 在 TPC-H 测试中,Apache Doris 在 Join 场景中表现优异,其性能约为 Greenplum 的 3 至 8 倍。 在 TPC-DS 测试中, Apache Doris 性能较 Trino/Presto 提升了约 3 倍。

03 超大规模用户高并发查询
分区分桶裁减:采用 Partition、 Bucket 两级分区,通过 Hash 将数据打散至各个节点中,以此提升读取并行度和吞吐量。 主键索引 & 倒排索引:提供丰富的索引结构来加速数据的读取和过滤。通过索引显著减少了需要扫描的行数,降低 CPU 和 IO 的压力,大幅提升了系统整体并发能力。 行列混存:引入行式存储格式,在数据服务场景中行存更为高效,可减少磁盘访问次数。用户可指定开启行存,点查时每行只需一次 IO,在宽表列较多的情况下性能有数量级提升。 点查短路径及预处理语句优化:实现了点查短路径优化,绕过查询优化器以及 PlanFragment 来简化 SQL 执行流程,直接使用快速高效的读路径来检索所需的数据。同时,FE 端支持与 MySQL 协议兼容的预处理语句,在 CPU 成为瓶颈时,Prepared Statement 可实现 4 倍以上的性能提升。
04 高可用架构设计
简洁架构设计:采用简洁的架构设计,确保元数据节点(FE)和存储计算节点(BE)均无单点故障,确保在硬件故障时,服务能够持续运行而不受影响。 在线扩容与滚动升级:支持在线扩容和滚动升级,用户能够在不中断服务的情况下,灵活地调整计算资源和存储容量,极大地提升了系统的弹性,允许用户根据实际需求快速扩展。 数据自动均衡:系统提供数据自动均衡功能,确保数据在各节点间均匀分布,从而提升查询性能和资源利用率。 在线模式变更:用户可以在不停机的情况下动态增删索引,快速响应业务变化,灵活地调整数据结构以满足不同场景的需求。 存算分离支持:在 3.0 版本中引入了存算分离,可以通过多计算集群实现查询负载间的物理隔离以及读写负载隔离,计算和存储资源可以独立扩展,进一步提升了系统的灵活性和性能。
Unified,统一之路

01 湖仓无界

联邦查询能力:Apache Doris 通过扩展 Catalog 和存储插件,使用户无需将数据物理集中至统一的存储空间,在保持各数据源独立性的同时,仅借助 Apache Doris 即可实现多个异构数据源的统一分析,既可以直查外部表以及存储文件、也可以执行内表和外表以及外表相互之间的关联分析。此外。目前 Apache Doris 已经支持了 10 余种主流湖、仓、关系型数据库的连接器。 开放的数据湖特性:Apache Doris 引入高吞吐读写 API,也称之为 Data API 或 Storage API。打破了数据封闭性,使外部引擎能直接、高效地访问和存储 Doris 中的数据,无需受限于造成性能瓶颈的 JDBC/ODBC 协议。
02 半结构化数据分析
复合数据类型:支持 Array、Map、Struct、JSON 复合数据类型,常用于用户行为和画像分析、点查、查询数据湖中 Parquet ORC 等格式数据的场景。 Variant 数据类型:支持 Variant 数据类型,支持存储半结构化数据以及包含不同数据类型(如整数、字符串、布尔值等)的复杂数据结构,无需提前在表结构中定义具体的列。擅长处理复杂多变的嵌套结构,可自动推断列信息并合并到现有 Schema,支持动态子列的存储。同时,表中可以同时包含灵活的 Variant 列和静态列,提供更大的存储和查询灵活性。相较于 JSON 类型,存储空间减少了约 65%,查询速度提升超 10 倍。 String 数据类型:优化了正则匹配和子串匹配算法,引入了 NGram BloomFilter,提升了使用 LIKE 语句时的查询速度;同时,通过倒排索引,对文本进行细粒度分词,使得用户可以使用 MATCH 等相关语句,实现文本快速检索。
Elastic,弹性之路
01 存算一体
02 存算分离全新架构


03 两种部署形态融合

2025,探索更多可能性
内置 CDC 同步:Apache Doris 虽已支持丰富的数据导入方式,但 CDC 仍依赖外部工具或生态合作伙伴。未来将实现内置 CDC 同步功能,目前我们已研发出初步版本,支持从众多 TP 数据库直接 CDC 导入数据。 支持增量数据处理:投入大量人力支持基于增量式的批量处理。这种方式不同于 Spark 或传统 Hive 的批量模式,具备更高的时效性,能够显著提升数据处理效率。 完善湖仓一体:兼容 Trino/Presto Connector 框架,这意味着 Apache Doris 将能够直接使用 Trino 和 Presto 所支持的功能,无需重复开发。同时,还将完善高吞吐读写的 Data API,以提升整体性能。 存算一体和存算分离部署形态融合:Apache Doris 未来计划融合这两种部署形态,用户无需再纠结于选择哪种部署形态,无论是从存算一体切换到存算分离,还是反向切换,都可以通过简单的参数配置实现自动切换,而无需重建集群或重新导入数据,避免架构过早复杂性。
更优:提升导入性能,将查询性能从秒级提升为亚秒级,为保持全球查询性能第一的位置而持续发力。 更稳:实行更加严格的版本迭代策略,三位版本将不再引入新 Feature,专注于 Bug 的修复,并加强更多测试覆盖。实现内核插件化,基于插件化引入新功能与周边功能。 更易用:对于配置较为复杂的参数,未来将努力简化参数配置,并提升产品文档质量,完善周边生态工具,以增强用户使用体验。
Doris Summit Asia 2024 峰会回放 & PPT 资料现已公开,复制下方链接到浏览器,即可查阅或下载:https://doris-summit.org.cn/
- END -
更多标杆企业信赖
智慧金融与政企:杭银消金|河北幸福消费金融|汇添富基金|金融壹账通|平安人寿|奇富科技|同程数科|通联支付|无锡锡商银行|星云零售信贷|星火保|银联商务|易生支付|招商信诺人寿|招联金融|360数科 |360企业安全浏览器
互联网与文娱:斗鱼|抖音集团|叮咚买菜|工商信息查询平台|货拉拉|快手|荔枝微课|票务平台|墨迹天气|MiniMax|奇安信|趣丸科技|腾讯音乐|天眼查|网易|网易游戏|网易严选|小米|小鹅通|迅雷|约苗|字节跳动|知乎|360商业化
企业服务与新经济:宝尊科技|Cisco|橙联|度言|观测云|慧策|快成物流|领健|领创|名创优品|Moka BI|美联物业|钱大妈|拈花云科|上海家化|思必驰|顺丰科技|物易云通|云积互动|有赞|雨润集团|纵腾集团

作为基于 Apache Doris 的商业化公司,飞轮科技秉承着 “开源技术创新”和“实时数仓服务”双轮驱动的战略,在投入资源大力参与 Apache Doris 社区研发和推广的同时,基于 Apache Doris 内核打造了聚焦于企业大数据实时分析需求的企业级产品 SelectDB ,面向新一代需求打造世界领先的实时分析能力。自 2022 年成立以来,获得 IDG 资本、红杉中国、襄禾资本等顶级 VC 的近 10 亿元融资,创下了近年来开源基础软件领域的新纪录。

一臻数据致力于大数据AI时代的前沿内容分享,会持续分享更多有趣有用有态度的知识。同时也欢迎大家投稿,共建共进,帮助圈友们冲破认知壁垒,实现自我提升!
另外,整理了份《一臻数据知识库》,其中包含 Apache Doris 和 Data+AI 的学习资料、学习课程、白皮书、研究报告、行业标准 和 实践指南 等内容,会持续更新,欢迎关注公众号,免费领取。
资料获取 🔗 欢迎扫描下方二维码图片 备注【Doris】免费领取❗️

往期推荐




