排行
数据库百科
核心案例
行业报告
月度解读
大事记
产业图谱
中国数据库
向量数据库
时序数据库
实时数据库
搜索引擎
空间数据库
图数据库
数据仓库
大调查
2021年报告
2022年报告
年度数据库
2020年openGauss
2021年TiDB
2022年PolarDB
2023年OceanBase
首页
资讯
活动
大会
学习
课程中心
推荐优质内容、热门课程
学习路径
预设学习计划、达成学习目标
知识图谱
综合了解技术体系知识点
课程库
快速筛选、搜索相关课程
视频学习
专业视频分享技术知识
电子文档
快速搜索阅览技术文档
文档
问答
服务
智能助手小墨
关于数据库相关的问题,您都可以问我
数据库巡检平台
脚本采集百余项,在线智能分析总结
SQLRUN
在线数据库即时SQL运行平台
数据库实训平台
实操环境、开箱即用、一键连接
数据库管理服务
汇聚顶级数据库专家,具备多数据库运维能力
数据库百科
核心案例
行业报告
月度解读
大事记
产业图谱
我的订单
登录后可立即获得以下权益
免费培训课程
收藏优质文章
疑难问题解答
下载专业文档
签到免费抽奖
提升成长等级
立即登录
登录
注册
登录
注册
首页
资讯
活动
大会
课程
文档
排行
问答
我的订单
首页
专家团队
智能助手
在线工具
SQLRUN
在线数据库即时SQL运行平台
数据库在线实训平台
实操环境、开箱即用、一键连接
AWR分析
上传AWR报告,查看分析结果
SQL格式化
快速格式化绝大多数SQL语句
SQL审核
审核编写规范,提升执行效率
PLSQL解密
解密超4000字符的PL/SQL语句
OraC函数
查询Oracle C 函数的详细描述
智能助手小墨
关于数据库相关的问题,您都可以问我
精选案例
新闻资讯
云市场
登录后可立即获得以下权益
免费培训课程
收藏优质文章
疑难问题解答
下载专业文档
签到免费抽奖
提升成长等级
立即登录
登录
注册
登录
注册
首页
专家团队
智能助手
精选案例
新闻资讯
云市场
微信扫码
复制链接
新浪微博
分享数说
采集到收藏夹
分享到数说
首页
/
发布|火山引擎发布ByteHouse性能白皮书,揭秘OLAP性能突破的关键技术(内附下载链接)
发布|火山引擎发布ByteHouse性能白皮书,揭秘OLAP性能突破的关键技术(内附下载链接)
字节跳动数据平台
2024-03-28
94
点击“阅读原文”即可领取白皮书
日前,火山引擎正式发布《云原生数据仓库ByteHouse性能白皮书》,白皮书通过使用 SSB 100G、TPC-H 100G、TPC-DS 100G 数据集进行性能测试,展示出 ByteHouse 在查询效率方面的显著成果,并详细介绍ByteHouse在实时数仓、复杂查询等八大应用场景的高性能应用表现。
在数据处理和分析的领域,提升查询效率始终是一项关键挑战。对于 OLAP 来说,性能的关键需求在于能支持实时分析,应对复杂查询,提供快速响应,并具备良好的可扩展性。这些方面,对于满足高效、准确的数据分析需求至关重要。
作为一款OLAP引擎,伴随字节跳动各业务的发展,ByteHouse已经过数百个应用场景和数万用户锤炼,在2022年3月部署规模已超过1万8000台,最大的集群规模在 2400 余个节点,管理总数据量超过700PB,并逐步在外部金融、泛互等场景应用和推广。为了更好支持字节内外部大规模数据和复杂场景应用,性能一直以来是ByteHouse重点打磨的产品基本功。
SSB、TPC-H 和 TPC-DS 是常用于测试分析型数据库/数据仓库的数据集。在白皮书中,通过使用以上三种数据集进行性能测试,并以性能著称的某开源OLAP为基准测试产品,ByteHouse在不同查询项上都有显著的性能提升。
以TPC-H 数据集举例,在相同硬件和软件环境下, ByteHouse 查询效率高于本次基准测试产品几十倍。
那么,ByteHouse高性能究竟是如何做到的?
在白皮书发布会现场,ByteHouse技术专家从复杂查询和宽表查询两个方面,深度介绍ByteHouse性能提升的相关经验。
在复杂查询上,ByteHouse解决了ClickHouse缺少优化器支持的问题,
从RBO(基于规则的优化能力)、CBO(基于代价的优化能力)、分布式计划生成方面推出了自研优化器,能够准确的计算出效率最大化执行路径,大幅度降低用户查询时间。除此之外,
ByteHouse还从Exchange、Runtime Filter以及并行化重构等方向进行了优化。
以Runtime Filter举例,在 OLAP 场景中,Join 是制约查询性能进一步突破的瓶颈,ByteHouse 则支持根据不同的场景生成最优的 RuntimeFilter,优化了生成和 Apply 的流程,同时支持 Distributed 和 Local 的 RuntimeFilter,在较大规模集群上也自适应的支持 Shuffle-Aware 的 RuntimeFilter。
在宽表查询上,ByteHouse主要通过全局字典、Zero copy以及UncompressedCache 来进行性能提升。
首先,全局字典主要通过编码方式将变长字符串转化为定长数值,针对 Agg、Function和Exchange算子可以直接进行编码值的计算,以此提升计算效率。其次,ByteHouse通过zero copy来优化内存墙,减少数据传输过程中引发的深拷贝开销,提升内存带宽在真正计算上的使用效率。最后,针对单节点上多线程并发引发的锁竞争现象,ByteHouse主要通过优化UncompressedCache确保性能效果。
高并发点查也是本次白皮书发布会介绍的重点能力。
在某些企业的销售系统场景中,不同部门的员工可能同时发起多个查询请求,例如查询某个门店在特定时间段的销售额、某个商品在不同地区的销售情况等。
如果OLAP系统的高并发点查能力不足,就会存在响应时间慢等情况,在技术层面则体现为索引计算繁重、点查读放大严重、执行链路冗长、锁竞争激烈等问题,
ByteHouse通过采用短链路的执行方式、建立unique table 点查索引、提升读链路效率等方式进行优化,在某游戏公司的广告推荐业务上,仅仅 256 Core 的算力,即可支持 10万+QPS。
除此之外,
白皮书还从实时数仓、复杂查询、宽表查询、人群圈选、行为分析等八大场景介绍了ByteHouse高性能的应用落地。
其中,在人群圈选场景中,ByteHouse可以满足大规模数据的分析和查询需求,并具有一套用于解决集合的交并补计算的定制模型BitEngine,该模型能解决实时分析场景中的性能提升问题。相比于普通和Array或者用户表方式,BitEngine在查询速度上有10-50倍提升,解决了人群圈选中误差大、实时性不强以及存储成本高的痛点。
通过一系列技术优化手段,ByteHouse实现性能进一步提升,缩短查询执行时间、优化资源利用,能应对更复杂的查询场景,为用户提供更流程的数据分析体验。不仅仅是探索性能突破,ByteHouse也在持续拓展产品一体化、易用性、生态兼容性,为业务带来更多的价值,推动各行各业数字化转型。
--活动推荐--
限额50位
ByteHouse性能挑战赛正式开启!
●
活动时间:
即日起至
4月26日截止
●
如果你对OLAP性能调优感兴趣,如果你正在进行数据库选型,如果你遇到数据库性能瓶颈......
⭐️参与性能复现和挑战,即
有机会获取airpods、智能手表、机械键盘等
大奖
添加小助手,回复“性能挑战赛”立即报名
查看活动详情👇
大数据
白皮书
文章转载自
字节跳动数据平台
,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。
评论
领墨值
有奖问卷
意见反馈
客服小墨