暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
一种检测倾斜数据的Hash Join执行方法_CN115858523A_上海沄熹科技有限公司.pdf
13
10页
0次
2024-04-24
免费下载
(19)国家知识产权局
(12)发明专利申请
(10)申请公布号
(43)申请公布日
(21)申请号 202211418045.1
(22)申请日 2022.11 .14
(71)申请人 上海沄熹科技有
地址 200120 上海市浦东新区中国上海
1158
路1059号2幢305-22室
(72)发明人  魏可伟 赵衎衎 
(74)专利代理机构 济南信达专利事务所有
37100
专利代理师 冯春连
(51)Int.Cl .
G06F
16/22
(2019 .01)
G06F
16/2458
(2019 .01)
G06F
16/27
(2019 .01)
(54)发明
一种检测倾斜数据的Hash Join执行方法
(57)摘要
本发明公开一种检测倾斜数据的Hash Join
执行方法涉及分布式数据库技术领包括
据集相对
倾斜率与其中一个输入数据集中数据量乘积
得到倾斜阈输入数据集中出现频率超过倾斜
阈值的值被称为倾斜检查总数据量较大的
集中
别进行哈
测该输入数据集在某个字段的所有倾斜值得到
倾斜值列表后基于倾斜值列表将每个输入数
据集值的Normal数据集和含
倾斜值的Skew数据集对Normal数据集进行哈希
Skew进行均分
群中进行Hash Join计算
本发明可提高Hash Join的执行效率。
权利要求书2页 说明书5页 附图2页
CN 115858523 A
2023.03.28
CN 115858523 A
1 .种检测倾斜数据Hash Join执行方法其特征在于 ,其实现内容包括
数据库SQL引擎执行Hash Join之前获取Join算子两个输入数据集
相对相对与其个输入数据集量的
倾斜阈值两个输入数据集中出现频率超过倾斜阈值值被称为倾斜值
针对两个输入数据集检查总据量较大输入数据集是否存在倾斜值
则对个输入数据集行哈据集
分发到Join节点集群中
则探总数据量在某到倾
后基于倾斜值列表将每个输入数据集拆分为不含倾斜值的Normal数据集和含有倾斜
值的Skew数Normal数据集进行哈分发将Normal据集拆分分发到Join
点集群中对Skew据集均分发像分Skew数进行拆分均分
或复制后对应分发到Join节点集群所有节点上
Join节点集群中的节点对其上数据进行Hash Join计算。
2.利要求1所述种检测倾据的Hash Join在于
两个输入数据集总数据量较大的输入数据集称为Big数据集将总数据量较小的数据集
称为Small数据集。
3 .利要2述的据的Hash Join其特在于计算
相对倾斜率与Big数据集中采样数据量的乘积得到倾斜阈值Big数据集和Small数据集中
出现频率超过倾斜阈值的值被称为倾斜值
使查器检查Big据集在某个字段是存在倾斜值若存在倾斜值使测器统
计Big数据集在某个字段所有倾斜值得到倾斜值列表。
4 .据权利要3述的斜数据的Hash Join其特在于检查
器首先对Big数据集进行顺序采算采样数据量与相对倾斜率得到倾斜阈后检查
采样数据中是否存在倾斜值。
5 .利要3述的据的Hash Join其特在于
倾斜Big据集中倾斜拆分Skew 1集中Big据集中的剩余
数据划分到Normal 1据集中同时将Small数据集中的所有倾斜值拆分到Skew 2数据集
将Small数据集中剩余据划分到Normal 2数据集中
使hash routerNormal 1Normal 2
Normal 1据集和Normal 2数据集进行拆分并别分发到Join节点集群中使average
router对Skew 1数据集进行平均分发将Skew 1据集进行拆分并平均分发到Join节点
集群的所有节点上使用mirror router对Skew 2数据集进行镜像分发Skew 2数据集
制成多份对应分发到Join节点集群的所有节点上。
6 .利要5述的据的Hash Join其特在于使
hash router对Normal 1据集和Normal 2据集分别进行哈希分发时对Normal 1
和Normal 2数据集中的某些字段使用相同的散列函数进行计算据计算结果将Normal
1数据集和Normal 2据集分别拆分多个子集Normal 1据集的个子和Normal 2
数据集多个子集被分别分发到Join节点集群对应节点上。
7 .据权利要6述的据的Hash Join其特在于使
权 利 要 求 书
1/2
2
CN 115858523 A
2
of 10
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜