1 .一种数据集列序列化的高效连接比对实现方法,其特征在于,包括:
根据数据集A和数据集B的变量,挑选出数据集A和数据集B的连接列;
对数据集A包含的各个连接列进行合并,以及各个非连接列进行合并,得到新的数据集
A′;对数据集B包含的各个连接列进行合并,以及各个非连接列进行合并,得到新的数据集
B′;
比对数据集A ′与数据集B ′的连接列,根据比对的结果,将数据集A ′和数据集B′进行合
并为数据集C;
根据数据集C非连接列的数据来源,获取数据集C非连接列不同数据来源的有序对,得
到数据集A与数据集B的连接结果。
2.根据权利要求1所述的数据集列序列化的高效连接比对实现方法,其特征在于,所述
数据集A和数据集B的连接列为数据集A与数据集B具有相同变量的列,并且,所述数据集A和
数据集B相同的变量可以为一个或多个。
3 .根据权利要求1所述的数据集列序列化的高效连接比对实现方法,其特征在于,所述
数据集A合并得到数据集A ′,以及数据集B合并得到数据集B′的过程仅为单元格的合并,合
并后保留原有对象的排列方式,合并后的数据集A ′和数据集B ′都只包含一列连接列和一列
非连接列。
4 .根据权利要求1所述的数据集列序列化的高效连接比对实现方法,其特征在于,所述
比对数据集A ′与数据集B ′的连接列,还包括比对数据集A ′和数据集B ′序列化后的key值数
组,具体为:
分别对数据集A′和数据集B′进行序列化,将连接列转换为key值数组;
比对数据集A′和数据集B′序列化后的key值数组,得出比对结果。
5 .根据权利要求4所述的数据集列序列化的高效连接比对实现方法,其特征在于,所述
分别对所述数据集A′和数据集B′的进行序列化具体包括:
对数据集A′的连接列进行序列化,将数据集A′的连接列转换为key值数组;
对数据集B′的连接列进行序列化,将数据集B′的连接列转换为key值数组。
6 .根据权利要求5所述的数据集列序列化的高效连接比对实现方法,其特征在于,所述
根据比对的结果,将数据集A′和数据集B′进行合并为数据集C,具体合并规则为:
根据数据集A ′和数据集B ′连接列序列化后的结果,挑出相同的key值行,先将相同key
值合并在一起,再将相同key值对应非连接列的对象合并在一起,并且,非连接列合并仅仅
将单元格进行合并,保留原有的key值;
保留key值不相同的行数据。
7 .根据权利要求1所述的数据集列序列化的高效连接比对实现方法,其特征在于,所述
获取数据集C非连接列不同数据来源的有序对的具体步骤包括:
挑出数据集C非连接列内同时含有数据集A和数据集B数据的的对象;
根据数据数据集C的非连接列来源将挑出的对象拆分为ListA和ListB,其中,ListA表
示来源于数据集A中的数据,ListB表示来源于数据集B中的数据;
对拆分后的ListA和ListB进行排列组合,获取数据集C非连接列不同数据来源的有序
对;
将有序对和数据集C其余的非连接列对象排成一列,组成新的非连接列。
权 利 要 求 书
1/2 页
2
评论