
9
和生产效率。数据已成为矿物和化学元素一样的原
始材料,未来可能形成“数据探矿”、“数据化
学”等新学科和新工艺模式。大数据处理的兴起也
将改变云计算的发展方向,云计算正在进入以“分
析即服务”(analysis as a service,AaaS)为主要标
志的Cloud 2.0时代。
IBM、Oracle、微软、谷歌、亚马逊、Facebook
等跨国巨头是发展大数据处理技术的主要推动者。
自2005年以来,IBM投资160亿美元进行了30次与大
数据有关的收购,促使其业绩稳定高速增长。2012
年,IBM股价突破200美元大关,3年之内翻了3倍。
华尔街早就开始招聘精通数据分析的天文学家和理
论数学家来设计金融产品。IBM现在是全球数学博士
的最大雇主,数学家正在将其数据分析的才能应用
于石油勘探、医疗健康等各个领域。eBay通过数据
挖掘可以精确计算出广告中的每一个关键字为公司
带来的回报。通过对广告投放的优化,2007年以来
eBay产品销售的广告费降低了99%,而顶级卖家占总
销售额的百分比却上升至32%。目前推动大数据研究
的动力主要是企业经济效益,巨大的经济利益驱使
大企业不断扩大数据处理规模。
科技界要应对大数据带来的技
术挑战
大数据研究的热潮激励基础研究的科研人员开
始考虑“数据科学”问题。但必须指出,目前大数
据的工程技术研究已走在科学研究的前面。当前的
局面是各个学科的科学家都以自己为主处理本领域
的海量数据,信息领域的科学家只能起到助手的作
用。也就是说,各领域的科学问题还掌握在各学科
的科学家手里,计算机科学家所提炼出的具有共性
的大数据科学问题并不多。当技术上解决不了的问
题越来越多时,就会逐步凝练出具有共性的科学挑
战问题。在条件还不成熟的时候,计算机科学家应
虚心地甘当一段时期的“助手”,虚心与各应用领
域的科研人员合作,努力解决各领域大数据处理提
出的技术挑战问题。对于网络大数据方面,计算机
学者的主动性可能会较早发挥出来。
美国政府六个部
门启动的大数据研究计划中,
除了国家科学基金会的研究内容提到要“形成一
个包括数学、统计基础和计算机算法的独特学科”
外,绝大多数研究项目都是应对大数据带来的技术
挑战,重视的是数据工程而不是数据科学,主要考
虑大数据分析算法和系统的效率。例如,国防部高
级研究计划局(DARPA)的大数据研究项目包括:
多尺度异常检测项目,旨在解决大规模数据集的异
常检测和特征化;网络内部威胁计划,旨在通过分
析传感器和其他来源的信息,进行网络威胁和非常
规战争行为的自动识别;Machine Reading项目,
旨在实现人工智能的应用和发展学习系统,对自然
文本进行知识插入。能源部(D O E)的大数据研
究项目包括:机器学习、数据流的实时分析、非线
性随机的数据缩减技术和可扩展的统计分析技术,
其中,生物和环境研究计划的目标是大气辐射测量
等气候研究设施,系统生物学知识库项目是对微生
物、植物等生物群落功能的数据驱动的预测。国家
人文基金会(NEH)项目包括:分析大数据的变化
对人文社会科学的影响,如数字化的书籍和报纸数
据库,从网络搜索,传感器和手机记录交易数据。
国家科学基金会(NSF)的大数据项目的重点也是
围绕突破关键技术,包括:从大量、多样、分散和
异构的数据集中提取有用信息的核心技术;开发一
种以统一的理论框架为原则的统计方法和可伸缩的
网络模型算法,以区别适合随机性网络的方法。
现有的数据中心技术很难满足大数据的需求,
需要考虑对整个IT架构进行革命性的重构。存储能
力的增长远远赶不上数据的增长,设计最合理的分
层存储架构已成为信息系统的关键。数据的移动已
成为信息系统最大的开销,目前传送大数据最便宜
的方式是通过飞机或地面交通工具运送磁盘而不是
网络通信。信息系统需要从数据围着处理器转改为
处理能力围着数据转,将计算用于数据,而不是将
数据用于计算。大数据也导致高可扩展性成为信息
系统最本质的需求,并发执行(同时执行的线程)
的规模从现在的千万量级提高10亿级以上。
评论