暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

大数据的压缩方法 │ 压缩数据上的聚集算法

327

把大数据计算问题转换为小数据计算问题的方法,即基于大数据压缩的计算方法,简称为压缩计算方法。

本文摘自《大数据算法分析与设计》第5章,有删减。


1

压缩计算方法概述


压缩计算方法是把大数据计算问题转换为小数据计算问题的有效方法。压缩计算方法首先以预处理的方式压缩数据集合,然后直接在压缩数据上无解压地求解大数据计算问题。本章介绍的压缩计算方法是精确计算方法,而基于抽样的计算方法是近似计算方法。当然,如果应用压缩计算方法设计大数据计算问题的近似求解算法,可能会更大幅度地降低大数据计算的时间复杂性。

很多大数据计算问题可以使用压缩计算方法实现亚线性时间精确求解。对于那些使用压缩计算方法很难实现亚线性时间精确求解的大数据计算问题,也可以使用压缩计算方法提高大数据计算问题求解的效率。当问题的输入大数据集合不可压缩或压缩比很低时,压缩计算方法就无能为力了。本章既考虑如何使用压缩计算方法实现亚线性时间算法,也考虑如何使用压缩计算方法最大化大数据计算的效率。


2

压缩数据上的聚集算法


大数据的联机分析是决策支持系统的重要基础。聚集操作是联机分析的重要操作之一。本节介绍基于压缩计算方法的多维数据聚集操作算法的设计与分析。首先讨论聚集问题的定义,然后讨论基于压缩计算的几种聚集算法的设计与分析。


1

通用聚集算法


首先讨论通用聚集算法,简记作G-Agg。“通用”意味着算法G-Agg适用于各种情况,无须作任何假定。

1. 算法设计

给定R(D1,D2,…,Dk; M)、F=Proj(R, M)、R的压缩结果(c(F), Hd)、和聚集函数Agg,算法G-Agg分为两个阶段,直接在数据集合R的压缩结果(c(F), Hd)上完成R的聚集计算。

第一阶段,转置阶段。该阶段根据聚集属性集合{A1,A2,…,Al}对R的维属性执行转置操作,使得聚集操作得以有效处理。

看图5.4.2给出的例子。R(A, B, C, D; M)是一个4维数据集合,其维属性次序为。如果聚集属性集合为{B, C},则维属性次序或R(B, C, A, D; M)能够有效支持聚集计算。


图5.4.2算法G-Agg的聚集计算过程


2  算法分析

算法的正确性是显然的。这里仅分析算法的时间复杂性和I/O复杂性。在下面的分析中,假设: R(d1,d2,…,dk; M)具有n个元组,每个元组具有常数个字节,R的压缩结果为(c(F), Hd),c(F)具有N个数据项,c(F)的Header向量Hd具有H个数据项,B是磁盘块或一个内存缓冲区大小。


实例讲解

大数据算法设计与分析

精彩回顾

大数据、大数据算法与大数据计算


下期预告

基于Hash分布方法的并行B树连接算法



3

参考书籍

大数据算法设计与分析

ISBN:9787302602408

作者:李建中

价格:69.9元

扫码优惠微店购书


内容简介

本书以大数据为背景,以求解大数据计算问题的计算方法(即亚线性时间计算方法、压缩计算方法、抽样计算方法、增量式计算方法、分布式并行计算方法)为主线,系统地介绍大数据计算问题求解算法的设计与分析的理论与方法,主要包括: 大数据计算问题的复杂性分类、大数据计算问题的亚线性时间求解算法的设计与分析方法、基于抽样的大数据计算问题的求解算法的设计与分析方法、基于数据压缩的大数据计算问题的求解算法的设计与分析方法、大数据计算问题的增量式求解算法的设计与分析方法、大数据计算问题的分布式并行求解算法的设计与分析方法。本书以作者在大数据计算方面的研究成果为主,也覆盖了大数据算法研究领域的部分新研究成果。

本书可以作为高等学校数据科学与大数据技术专业和计算机科学与技术专业高年级本科生或研究生的大数据算法课程的教材,也可以作为大数据研究人员的参考书。



编辑推荐

《大数据算法设计与分析》以大数据基础研究与大数据应用为背景,以大数据算法设计与分析方法学为主线,以多个重要大数据计算问题为例,全面、系统、深入地介绍大数据算法设计与分析的原理与方法。


著作的内容包括大数据算法方面的最新和最重要研究成果,全面反映大数据算法研究的新进展。


著作注重理论与实际相结合,以具有实际应用背景的大数据计算问题为例,既细致地介绍其求解算法的设计方法,又对算法的正确属性和复杂性进行精致的理论分析,使得读者不仅掌握求解重要大数据计算问题的大数据算法的设计和分析方法,同时建立坚实的大数据算法设计与分析的基础理论,不但具有解决实际应用领域的大数据问题的求解算法的设计和分析能力,也具有从事大数据算法设计与分析的基础研究的创新能力。


著作既能够满足大数据基础研究者和应用开发者的需要,也能满足数据科学与大数据技术专业研究生的教学需要,还能通过适当内容选择满足数据科学与大数据技术专业本科生的教学需要。


作者简介


李建中,中国科学院深圳理工大学(筹)教授,哈尔滨工业大学教授,国家杰出青年基金获得者,国家973项目首席科学家。主要从事大数据计算等研究,主持完成国家973计划、国家863计划、国家自然科学基金重大与重点等项目20余项,在国际一流学术期刊和会议发表150余篇论文,他引2万余次,H-index  62,并被斯坦福大学评选为全球前2%高被引学者,并研制了多个计算机软硬件系统,多次获得国家级和省部级科技进步和自然科学奖。    




4

精彩推荐


文章转载自清华计算机学堂,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论