
景下,解决大数据问题所需的技术以及面临的一些挑战。Science 在 2011 年 2 月推出专刊
《Dealing with Data》
[3]
,主要围绕着科学研究中大数据的问题展开讨论,说明大数据对于
科学研究的重要性。美国一些知名的数据管理领域的专家学者则从专业的研究角度出发,联
合发布了一份白皮书《Challenges and Opportunities with Big Data》
[4]
。该白皮书从学术的角
度出发,介绍了大数据的产生,分析了大数据的处理流程,并提出大数据所面临的若干挑战。
全球知名的咨询公司麦肯锡(McKinsey)去年 6 月份发布了一份关于大数据的详尽报告
《Big data: The next frontier for innovation, competition, and productivity》
[5]
,对大数据的影响、
关键技术和应用领域等都进行了详尽的分析。进入 2012 年以来,大数据的关注度与日俱增。
1 月份的达沃斯世界经济论坛上,大数据是主题之一,该次会议还特别针对大数据发布了报
告《Big Data, Big Impact: New Possibilities for International Development》
[6]
,探讨了新的数
据产生方式下,如何更好的利用数据来产生良好的社会效益。该报告重点关注了个人产生的
移动数据与其他数据的融合与利用。3 月份美国奥巴马政府发布了《大数据研究和发展倡议》
[7]
(Big Data Research and Development Initiative),投资 2 亿以上美元,正式启动“大数据发
展计划”。计划在科学研究、环境、生物医学等领域利用大数据技术进行突破。奥巴马政府
的这一计划被视为美国政府继信息高速公路(Information Highway)计划之后在信息科学领域
的又一重大举措。与此同时,联合国一个名为 Global Pulse 的倡议项目在今年 5 月发布报告
《Big Data for Development:Challenges & Opportunities》
[8]
,该报告主要阐述大数据时代各
国特别是发展中国家在面临数据洪流(Data Deluge)的情况下所遇到的机遇与挑战,同时还对
大数据的应用进行了初步的解读。《纽约时报》的文章《The Age of Big Data》
[9]
则通过主流
媒体的宣传使普通民众开始意识到大数据的存在,以及大数据对于人们日常生活的影响。
大数据的火热并不意味着对于大数据的了解深入,反而表明大数据存在过度炒作的危险。
大数据的基本概念、关键技术以及对其的利用上均存在很多的疑问和争议。本文从大数据问
题背后的本质出发,对现有的大数据研究资料进行全面的归纳和总结。首先简要介绍大数据
的基本概念,阐述其同传统数据库的区别。在此基础上,对大数据处理框架进行详细解析。
我们认为大数据的发展离不开云计算技术,云计算支撑着大数据存储、管理以及数据分析等。
因此本文展开介绍了大数据时代不可或缺的云计算技术和工具。最后全面阐述大数据时代面
临的新挑战。
2、
、、
、大数据的
大数据的大数据的
大数据的基本概念
基本概念基本概念
基本概念、
、、
、来源与应用
来源与应用来源与应用
来源与应用
2.1
2.1 2.1
2.1 大数据的基本概念
大数据的基本概念大数据的基本概念
大数据的基本概念
大数据本身是一个比较抽象的概念,单从字面来看,它表示数据规模的庞大。但是仅仅
数量上的庞大显然无法看出大数据这一概念和以往的“海量数据”(Massive Data)、“超大规
模数据”(Very Large Data)等概念之间有何区别。对于大数据尚未有一个公认的定义,不同
的定义基本是从大数据的特征出发,通过这些特征的阐述和归纳,试图给出其定义。在这些
定义中,比较有代表性的是 3V 定义
[10]
,即认为大数据需满足 3 个特点:规模性(Volume)、
多样性(Variety)和高速性(Velocity)。除此之外,还有提出 4V 定义的,即尝试在 3V 的基础上
增加一个新的特性。关于第四个 V 的说法并不统一,IDC 认为大数据还应当具有价值性
(Value)
[11]
,大数据的价值往往呈现出稀疏性的特点。而 IBM 认为大数据必然具有真实性
(Veracity)
[12]
。维基百科对大数据的定义
[13]
则简单明了:大数据是指利用常用软件工具捕获、
管理和处理数据所耗时间超过可容忍时间的数据集。
眼下在大数据定义问题上很难达成一个完全的共识,这点和云计算的概念刚提出时的情
况是相似的。在面对实际问题时,不必过度的拘泥于具体的定义之中,把握 3V 定义的基础
上,适当的考虑 4V 特性即可。
评论