暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
大数据管理概念、技术与挑战-孟小峰.pdf
740
25页
7次
2021-01-26
免费下载
大数据管理:概念、技术与挑战
孟小峰 慈祥
(中国人民大学信息学院 北京 100872)
Big Data Management: Concepts, Techniques and Challenges
Meng Xiaofeng and Ci Xiang
(School of Information, Renmin University of China, Beijing 100872)
Abstract: Data type and amount in human society is growing in amazing speed which caused by
emerging new service such as cloud computing, internet of things and social network, the era of
Big Data has come. Data has been fundamental resource from simple dealing object, and how to
manage and utilize big data better has attracted much attention. Evolution or revolution on
database research for big data is a problem. This paper discusses the concept of big data, and
surveys its state of the art. The framework of big data is described and key techniques are studied.
Finally some new challenges in the future are summarized.
Keywords Big Data; Data Analysis; Cloud Computing
摘要 云计算、物联网、社交网络等新兴服务促使人类社会的数据种类和规模正以前所未有
的速度增长大数据时代正式到来。数据从简单的处理对象开始转变为一种基础性资源
何更好的管理和利用大数据已经成为普遍关注的话题。大数据的规模效应给数据存储、管理
以及数据分析带来了极大的挑战数据管理方式上的变革正在酝酿和发生。本文对大数据的
基本概念进行剖析,并对大数据的主要应用做简单对比在此基础上阐述大数据处理的
本框架,并就云计算技术对于大数据时代数据管理所产生的作用进行分析。最后归纳总结大
数据时代所面临的新挑战
关键字 数据;数据分析;云计算
中图法分类 TP311
1
引言
引言引言
引言
随着以博客社交网络基于位置的服 LBS 为代表的新型信息发布方式的不断涌
以及云计算物联网等技术的兴起,数据正以前所未有的速度在不断的增长和累积,大数
时代已经来到。学术界工业界甚至于政府机构都已经开始密切关注大数据问题并对其产
生浓厚的兴趣。就学术界而言,Nature 2008 年就推出了 Big Data 专刊
[1]
。计算社区
(Computing Community Consortium) 2008 年发表了报告Big-Data Computing: Creating
revolutionary breakthroughs in commerce, science, and society
[2]
阐述了在数据驱动的研究背
景下,解决大数据问题所需的技术以及面临的一些挑战。Science 2011 2 月推出专刊
Dealing with Data
[3]
,主要围绕着科学研究中大数据的问题展开讨论,说明大数据对
科学研究的重要性。美国一些知名的数据管理领域的专家学者则从专业的研究角度出发
合发布了一份白皮书《Challenges and Opportunities with Big Data
[4]
。该白皮书从学术的角
度出发,介绍了大数据的产生,分析了大数据的处理流程,并提出大数据所面临的若干挑战。
全球知名的咨询公司麦肯锡(McKinsey)去年 6 月份发布了一份关于大数据的详尽报告
Big data: The next frontier for innovation, competition, and productivity
[5]
对大数据的影响
关键技术和应用领域等都进行了详尽的分析。进入 2012 以来,大数据的关注度与日俱增。
1 月份的达沃斯世界经济论坛上大数据是主题之一,该次会议还特别针对大数据发布了报
告《Big Data, Big Impact: New Possibilities for International Development
[6]
,探讨了新的数
据产生方式下,如何更好的利用数据来产生良好的社会效益。该报告重点关注了个人产生的
移动数据与其他数据的融合与利用。3 月份美国奥巴马政府发布了《大数据研究和发展倡议
[7]
(Big Data Research and Development Initiative)投资 2 亿以上美元,正式启动“大数据发
展计划”。计划在科学研究、环境、生物医学等领域利用大数据技术进行突破。奥巴马政府
的这一计划被视为美国政府继信息高速公(Information Highway)计划之后在信息科学领
的又一重大举措此同时,联合国一个名为 Global Pulse 的倡议项目在今年 5 月发布报
Big Data for DevelopmentChallenges & Opportunities
[8]
该报告主要阐述大数据时代各
国特别是发展中国家在面临数据洪流(Data Deluge)的情况下所遇到的机遇与挑战,同时还对
大数据的应用进行了初步的解读。《纽约时报》的文章《The Age of Big Data
[9]
则通过主流
媒体的宣传使普通民众开始意识到大数据的存在,以及大数据对于人们日常生活的影响。
大数据的火热并不意味着对于大数据的了解深入,反而表明大数据存在过度炒作的危险
大数据的基本概念、关键技术以及对其的利用上均存在很多的疑问和争议。本文从大数据问
题背后的本质出发,对现有的大数据研究资料进行全面的归纳和总结。首先简要介绍大数据
的基本概念,阐述其同传统数据库的区别。在此基础上,对大数据处理框架进行详细解析。
我们认为大数据的发展离不开云计算技术云计算支撑着大数据存储、管理以及数据分析等。
因此本文展开介绍了大数据时代不可或缺的云计算技术和工具最后全面阐述大数据时代
临的新挑战
2
大数据的
大数据的大数据的
大数据的基本概念
基本概念基本概念
基本概念、
、来源与应用
来源与应用来源与应用
来源与应用
2.1
2.1 2.1
2.1 大数据的基本概念
大数据的基本概念大数据的基本概念
大数据的基本概念
大数据本身是一个比较抽象的概念,单从字面来看,表示数据规模的庞大。但是仅仅
数量上的庞大显然无法看出大数据这一概念和以往的“海量数据”Massive Data“超大
模数据”(Very Large Data)等概念之间有何区别。对于大数据尚未有一个公认的定义,不
的定义基本是从大数据的特征出发,通过这些特征的阐述和归纳,试图给出其定义。在这
定义中,比较有代表性的 3V 定义
[10]
,即认为大数据需满足 3 个特点:规模(Volume)
多样性(Variety)和高速性(Velocity)除此之外还有提出 4V 定义的,即尝试在 3V 的基础上
增加一个新的特性。关于第四个 V 的说法并不统一IDC 认为大数据还应当具有价值性
(Value)
[11]
,大数据的价值往往呈现出稀疏性的特点。而 IBM 认为大数据必然具有真实
(Veracity)
[12]
维基百科对大数据的定义
[13]
则简单明了大数据是指利用常用软件工具捕获、
管理和处理数据所耗时间超过可容忍时间的数据集。
眼下在大数据定义问题上很难达成一个完全的共识,这点和云计算的概念刚提出时的情
况是相似的在面对实际问题时不必过度的拘泥于具体的定义之中,把握 3V 定义的基础
上,适当的考虑 4V 特性即可。
of 25
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜