数据
首先要回答的问题是:大数据产生于那些域?把数据的来源进行归类是为了理解可供选择的基础架
构以及特定的数据类型对其的要求。所有的“数据”都是不同的。数据将决定需要什么样的架构来
存储它、处理它并在它之上进行分析。我们有多种方式来看待数据的问题。
延迟的要求
第一种方式是根据处理数据所需要的时间跨度来界定数据:
•
实时 (财务流、复杂事件处理(Complex event Processing - CEP)、入侵检测、欺诈检测)
•
近实时 (广告投送)
•
批处理 (零售、取证、生物信息学、地理数据、多种类型的历史数据)
“实时”应用程序的例子
很多应用程序会涉及以下各种近乎实时的数据:
•
在线广告优化(包括实时竞价)
•
高频在线交易平台
•
安全事件监控
•
财务交易监控及欺诈检测
•
Web 分析及其他类型的仪表盘(dashboard)
•
在线游戏或电子商务的客户流失预测
•
基于行为和使用情况对设备、工业厂房或者物流系统进行优化
•
控制系统相关的任务:例如智能电网、核电站
•
关于某推文(tweets)的情绪分析
在大多数这些应用程序中,数据是持续在改变的。为了响应特定的事件,现实且(或)必要的选择
是在一个特定时间框架(“最近一小时被查看的页面”或“最近一小时/天/星期/月内的交易)
内只考虑相关的数据而不考虑过去全部的数据。
实时应用程序对大数据技术解决方案中关键属性的影响
为了选择恰当的手段和大数据技术解决方案来处理手头的问题,理解对这个决策有影响的一些关键
属性是非常重要的。出了延迟的要求(用于计算结果的时间)外,还应包括以下的:
•
事件特征
•
包括应用程序需要的数据输入/输出速率
•
事件响应复杂度
•
处理的复杂度
•
每个事件中处理任务的计算复杂度是怎样的?
•
数据域的复杂度
•
为了支持这些处理需要访问的数据量规模?
•
它是否可以在存储在内存中?或者它是否已经分散到多个位置和存储介质中?
评论