暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

流数据处理的一些基本概念

949


作者:稀饭


本文1200字,数理内容较少,泛读需4分钟,精读需7分钟



1、什么是流数据?

 

流数据可以被抽象成一个无穷尽的数据序列,由于每个数据具有时间特征,因此流数据可以被抽象为一个数据的时间序列,只是t不是从1n,而是从1

 

2、流数据分析中的一些的概念

 

1流数据分析模型

 

流数据分析模型是对这种有时效性要求的时间序列构建的数据分析模型,如获取模式或进行频繁项统计、聚类、分类和趋势预测等。同时,当数据的统计特征发生变化时,构建的分析模型需要能够自动适应这种变化。

 

2流数据处理

 

既是考虑到数据大规模实时持续到达的特性,考虑到数据基数大的特点,针对流数据的分析可能需要接受近似的解决方案,通过滑动窗口等处理方式,以便使用更少的时间和内存。

 

3无界数据

 

与有界数据相对应,无界数据是在时间或空间范围上趋于无限的数据。尽管批处理在设计之初并不是用于处理无界数据的,但仍然可以采用一定的规则将无界数据划分为一组有界数据的数据集,以适应批处理模式。常用的基于批处理模式进行无界数据处理的方式有固定窗口方法和会话方法。

 

3、流式数据处理的核心思想

 

主要是数据的在线持续处理。数据到达后并不直接入库,而是先通过数据处理算法进行分析,并维护一个远小于源数据规模的概要数据结构。由于概要数据结构规模小,可以在内存中维护。当用户需要查询的时候,可以直接从内存中的概要数据结构中查询,从而尽可能地提高了业务应用的响应时间。

 

4、流式数据处理的主要场景

 

主要是处理无界数据。这些需要流式处理的数据不但是无界的,流数据中特定事件的到达也可能是无序和无规律的,因此流数据在处理的时候,不能直接借鉴批处理模型中有界数据的处理模式。虽然批处理模式中的无界数据批处理方式可用于最基本的流数据处理,但由于概要结构数据的存在,其处理的模型也会有所不同。

 

5、流失数据处理的分类

 

1时间无关型

 

如果目标特征是与时间无关的,而仅与到达的数据有关,则只需要将无界的流数据切割成有界数据集,并处理这些数据集即可。这种模式与传统的批处理模式基本相同。

 

2窗口型

 

如果目标特征是与时间相关的,则需要考虑界标模型,即将从初始时间开始收集到的数据进行缓存,并在特定时刻进行数据分析。此时,需要根据流数据的特点,考虑数据窗口的分割方式。典型的方式包括“固定窗口”、“滑动窗口”和“会话窗口”。

 

3近似型

 

近似型采用一个类似会话窗口的可变窗口,但窗口的边界确定规则改为由近似算法确定。如果近似算法已经完成了其检测目标,则结束窗口,并开启新的会话窗口,这种近似算法使用的可变窗口可以认为是一种数据缓冲。为了避免大规模的内存空间占用,这种数据缓冲不可能像会话窗口一样,基于流数据中的指定特征的检测来定界。因此,这种可变窗口中缓存的数据,对进行某种特征分析来讲,可能是不完整的,进而导致特征分析的结果只是近似解。




广告区↓


互联网数据分析岗位求职备战




文章转载自稀饭居然不在家,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论