暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
大数据分类探究.pdf
36
30页
0次
2025-01-24
免费下载
大数据分类探究
云安全联盟大数据工作组发布
译者:李毅 中国惠普大学资深培训专家
摘要
在本文中,我们提出了一个大数据的六维度分类方法。这个分类方法的主要目的是帮助决策制定者
在计算和存储架构以及数据分析技术、安全与隐私框架等多种选择中寻找正确的方向。该分类的核
心是所要分析的数据。
简介
大数据指的是与我们每一个人以及周边事物有关而且被政府和企业所收集的大量数字信息。这些数
据不仅仅是由传统的信息交换软件通过台式机、移动电话等设备产生,也来自于各种环境中所嵌入
的无数类型各异的传感器;无论是城市街道(摄像头、麦克风)或喷气引擎(温度传感器),以及
快速蔓延的物联网 每一个电子设备都将连接到互联网并产生数据。
每天,我们生成 2.5 艾(1 艾等于 10 18 次方)字节的数据-当今世界上将近 90%的数据是在最
近两年中生成的(比如 20111])。有关存储、计算、安全与隐私、以及分析方面的问题都被大
数据的快速、大容量和多样性等特点给加以放大,例如可大规模扩展的云计算基础架构、数据来源
和格式的多样性、数据采集的流特性和云内迁移的巨大容量需求。
1 显示了基于六个维度的分类。这六个维度涵盖了构建大数据基础架构所必需要的各个方面。本
文后面的部分将对每一个维度进行介绍。
数据
首先要回答的问题是:大数据产生于那些域?把数据的来源进行归类是为了理解可供选择的基础架
构以及特定的数据类型对其的要求。所有的“数据”都是不同的。数据将决定需要什么样的架构来
存储它、处理它并在它之上进行分析。我们有多种方式来看待数据的问题
延迟的要求
第一种方式是根据处理数据所需要的时间跨度来界定数据:
实时 (财务流、复杂事件处理(Complex event Processing CEP、入侵检测、欺诈检测
近实时 (广告投送
批处理 (零售、取证、生物信息学、地理数据、多种类型的历史数据)
“实时”应用程序的例
很多应用程序会涉及以下各种近乎实时的数据:
在线广告优化(包括实时竞价)
高频在线交易平台
安全事件监控
财务交易监控及欺诈检
Web 分析及其他类型的仪表盘(dashboard
在线游戏或电子商务的客户流失预测
基于行为和使用情况对设备、工业厂房或者物流系统进行优
控制系统相关的任务:例如智能电网、核电站
关于某推文(tweets)的情绪分析
在大多数这些应用程序中,数据是持续在改变的。为了响应特定的事件,现实且(或)必要的选择
是在一个特定时间框架(“最近一小时被查看的页面”或“最近一小时/天/星期/月内的交易)
内只考虑相关的数据而不考虑过去全部的数据。
实时应用程序对大数据技术解决方案中关键属性的影响
为了选择恰当的手段和大数据技术解决方案来处理手头的问题,理解对这个决策有影响的一些关键
属性是非常重要的。出了延迟的要求(用于计算结果的时间)外,还应包括以下的:
事件特征
包括应用程序需要的数据输入/输出速率
事件响应复杂度
处理的复杂度
每个事件中处理任务的计算复杂度是怎样的?
数据域的复杂度
为了支持这些处理需要访问的数据量规模
它是否可以在存储在内存中?或者它是否已经分散到多个位置和存储介质中
of 30
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜