加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

【读书笔记-数据挖掘概念与技术】高级模式挖掘

发布时间:2020-12-14 03:30:29 所属栏目:大数据 来源:网络整理
导读:模式挖掘是一个比频繁挖掘模式更一般的术语,因为前者还涵盖了稀有模式和负模式。然而,在没有歧义时,两者可以互换地使用。 模式挖掘路线图 分类 基本模式 基于模式所涉及的抽象层 基于规则或模式所涉及的维数 基于规则或模式中所处理的值类型 基于挖掘选择

模式挖掘是一个比频繁挖掘模式更一般的术语,因为前者还涵盖了稀有模式和负模式。然而,在没有歧义时,两者可以互换地使用。

模式挖掘路线图


分类

  • 基本模式
  • 基于模式所涉及的抽象层
  • 基于规则或模式所涉及的维数
  • 基于规则或模式中所处理的值类型
  • 基于挖掘选择性模式的约束或标准
  • 基于所挖掘的数据类型和特征

多层、多维空间中的模式挖掘

  • 挖掘多层关联规则
对于所有层使用一致的最小支持度——一致支持度
在较低层使用递减的最小支持度——递减支持度
使用基于项或基于分组的最小支持度——基于分组的支持度


  • 挖掘多维关联规则
使用量化属性的静态离散化挖掘多维关联规则
  • 挖掘量化关联规则
1.数据立方体方法
2.基于聚类的方法
3.解释异常行为的统计学方法
  • 挖掘稀有模式和负模式

基于约束的频繁模式挖掘

  • 元规则制导的挖掘
  • 基于约束的模式产生:模式空间剪枝和数据空间剪枝
1.用模式剪枝约束对模式空间剪枝

模式剪枝约束分为五类:

反单调的:如果一个项集不满足规则约束,则它的任何超集不可能满足该约束

单调的:如果一个项集满足这个规则约束,则它的所有超集也满足。

简洁的:可以枚举并且仅枚举可以确保该约束的所有集合,该类约束不必迭代检验

可转变的:不属于以上三类,但该约束在项集一特定次序排列时可能成为单调的或反单调的。

不可转变的:大部分都属于以上四类。


2.用数据剪枝约束对数据空间剪枝

挖掘高维数据和巨型模式

模式融合

基本思想:融合少量较短的频繁模式,形成巨型模式候选。首先,他以有限的宽度遍历树,只使用有限大小的候选池中的模式作为模式树向下搜索的开始结点,避免了指数搜索空间问题。它产生巨型模式的近似解,可以找出大部分巨型模式。

步骤:1. 池初始化:一个短长度(长度不超过3)频繁模式的完全集。

? ? ? ? ? ???2. 迭代的模式融合:从当前池中随机选取k个种子,对每个种子找出直径为T的球内所有模式,将这些球融合成超模式集。由于每个超模式的支集随迭代而收缩,因此迭代过程终止。

模式融合合并打魔石的小的子模式,而不是用单个项增量地扩展模式。


核模式

挖掘压缩或近似模式

基于聚类的压缩:采用一个好的相似性度量,把相似的对象聚合到一个簇中,代表模式从每个簇中选取,从而提供频繁模式集的一个压缩版本。

模式距离:闭模式之间的距离度量。包含模式的支持度信息。

感知冗余的top-k模式:具有低冗余的k个代表模式的小集合。一种减少挖掘返回的模式数量的策略。

闭模式:频繁模式集的无损压缩
极大模式:有损压缩

模式挖掘的应用

1). 作为预处理,用于噪声过滤盒数据清理
2). 发现隐藏在数据中的固有结构和簇

3). 基于模式的分类

4). 高维空间中子空间的有效聚类

5). 对时间空间、序列、图像、视频数据进行分析

6). 序列与结构数据的分析,如图、树、子序列和网络分析

7). 作为基本的索引结构

8). 推荐系统

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读