加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

流挖掘技术

发布时间:2020-12-14 02:45:11 所属栏目:大数据 来源:网络整理
导读:一,数据流特点 1.??????海量的,不可能在内存以及硬盘存储 2.??????传统的多遍扫描挖掘方式不切实际 3.??????快速变化的,不可能看到流中每一个元素,只能分析部分获取决策 4.??????时序的,只能是单次线性,按其流入顺序依次读取 5.??????很快的响应时间 6

一,数据流特点

1.??????海量的,不可能在内存以及硬盘存储

2.??????传统的多遍扫描挖掘方式不切实际

3.??????快速变化的,不可能看到流中每一个元素,只能分析部分获取决策

4.??????时序的,只能是单次线性,按其流入顺序依次读取

5.??????很快的响应时间

6.??????高维的

二,数据模型

1.??????时序模型(time sevies):A[i] = X1,每一个数据项代表独立的信号

2.??????现金登记(cash register):令Xi = (j,Ii)且Ii>=0,则Ai[j]=Ai-1[j]+Ii 数据流中多个数据项增量表达一个A[j]

3.??????十字转门:同上,Ai[j]随着流入,可能增加也可能减少。

按照时序范围,可分为:

1.??????快照模型:处理范围在两个预定的事件戳范围之内

2.??????界标模型:从已知的初始时间点到当前的时间点

3.??????滑动窗口模型:某个固定的滑动窗口确定,滑动窗口终点永远为当前时间。其中窗口的大小可以由一个时间区定义,也可以由窗口的数据项定义。

三,数据流挖掘挑战

1.??????单次线性扫描

2.??????低的时间复杂度

3.??????低的空间复杂度

4.??????在理论上保证计算结果具有好的近似度

5.??????能适应动态变化的数据和流速

6.??????能有效的处理噪音和空值

7.??????on-demand挖掘

8.??????anytime的响应

9.??????概要数据结构的通用性

四,生成数据流概要数据结构的方法

1.??????基于数据的:取样,直方图,小波变换,sketching,loadshedding,hash,聚集运算

2.??????基于任务的

①????滑动窗口技术,最大的问题在于过期数据的移除,需要消除滑动窗口上过期数据对目标计算结果的影响

②????多窗口技术,在内存或者磁盘上保存数据流上多个窗口的数据信息

③????衰减因子,每个数据项都被赋予一个随时间不断减少的因子,数据项的值与衰减因子相乘后再参与计算

④????近似技术,以降低计算结果的精度为代价,换取算法时空复杂度降低

⑤????自适应技术,根据数据分布的变化和流速的变化自动调节算法

五,挖掘技术

1.??????分类:

①????无权重的majority,voting,投票规则分类

②????根据各分类模型在当前数据段上

2.??????聚类:对已给的数据集合,将其中相似的对象划分为一个或者多组

①????对已发现的簇,提供一个简洁的表达方式

②????对新的数据元素的处理,增量的

③????清晰而快速的孤立检测点

??? 3.频繁挖掘模式

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读