1 .一种批流一体化数据处理系统,其特征在于,包括:
内存抽象模块,用于在Flink内存分配最小单元的内部,根据当前的数据计算模式对序
列化后的内存数据进行内存管理;其中,所述数据计算模式包括流计算模式和批处理模式,
所述内存数据为采用Pax存储结构;
序列化与反序列化模块,用于进行数据对象和内存数据的相互转换;
SQL代码生成模块,用于根据当前的数据计算模式将待处理内存数据生成基于Pax存储
结构的向量式SQL执行代码;
算子模块,用于采用基于Pax存储结构的数据处理模式,执行所述向量式SQL执行代码,
以对所述待处理内存数据进行数据处理。
2.根据权利要求1所述的批流一体化数据处理系统,其特征在于,所述算子模块包括多
个算子单元,每一所述算子单元用于:获取输入数据流,基于所述向量式SQL执行代码从所
述数据流的数据页中取出数据记录,在对多条数据记录循环批量处理之后,写入到新的数
据页中,继而输出以数据页为单位的数据流。
3 .根据权利要求1所述的批流一体化数据处理系统,其特征在于,所述内存抽象模块,
具体还用于:根据当前的数据计算模式,选取相应的数据页存储参数对所述内存数据进行
内存管理;其中,所述数据页存储参数包括数据记录条数、最大等待时间和数据页默认最大
内存空间。
4 .根据权利要求3所述的批流一体化数据处理系统,其特征在于,所述内存抽象模块,
具体还用于:
在流计算模式下,根据当前数据积压情况对所述内存数据的数据记录条数进行实时自
适应调整,在所述数据页默认最大内存空间的约束下,基于所述最大等待时间和调整后的
数据记录条数对所述内存数据进行内存管理;
在批处理模式下,基于所述数据页默认最大内存空间对所述内存数据进行内存管理。
5 .根据权利要求1所述的批流一体化数据处理系统,其特征在于,所述内存抽象模块包
括数据插入管理单元、数据更新管理单元和数据删除管理单元,其中:
所述数据插入管理单元,用于在数据插入时,生成新数据页并根据数据属性值的长度
对所述新数据页进行子数据页分配,继而将待插入数据记录的属性分别复制至不同子数据
页中;
所述数据更新管理单元,用于在数据更新时,若根据待更新数据记录需要更新的属性
值在不同子数据页里面的偏移量判断超出子数据页可用空间,则向该子数据页的相邻子数
据页申请空间,若无法从相邻子数据页申请空间,则重新申请新数据页,并将待更新数据记
录移到新申请的数据页中,同时将旧数据页中被更新的数据记录标记为删除;
所述数据删除管理单元,用于在数据删除时,在数据页的预设位图中对待删除数据进
行标记,当标记的待删除数据记录超过预设阈值时,则对标记的待删除数据记录进行删除,
并生成新的数据页进行数据存储。
6 .根据权利要求1所述的批流一体化数据处理系统,其特征在于,所述序列化与反序列
化模块包括第一序列化与反序列化单元和第二序列化与反序列化单元,其中:
所述第一序列化与反序列化单元,用于在流计算模式下,将接收到的事件数据对象进
行序列化并按照Pax存储结构写入对应的子数据页中;还用于从Pax存储结构中读取对应的
权 利 要 求 书
1/2 页
2
文档被以下合辑收录
评论