加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

【读书笔记-数据挖掘概念与技术】挖掘频繁模式、关联和相关性:

发布时间:2020-12-14 03:30:56 所属栏目:大数据 来源:网络整理
导读:频繁模式: 频繁出现 的模式(可以是项集、子序列或子结构) 基本概念 支持度:support 置信度:confidence 关联规则:association 找出所有的频繁项集:出现次数≥最小支持计数 由频繁项集产生强关联的规则(定义最小支持度和最小置信度) 频度(支持度计数

频繁模式:频繁出现的模式(可以是项集、子序列或子结构)


基本概念

  • 支持度:support
  • 置信度:confidence
  • 关联规则:association
  1. 找出所有的频繁项集:出现次数≥最小支持计数
  2. 由频繁项集产生强关联的规则(定义最小支持度和最小置信度)
  • 频度(支持度计数):出现的次数
  • 频繁项集:项集I的相对支持度满足预定义的最小支持度阈值
  • 闭频繁项集:不存在真超项集Y使得Y与X在D中具有相同的支持度计数
  • X是D中的极大频繁项集:X是D中的极大频繁项集或极大项集,如果X是频繁的,并且不存在超项集Y使得X包含于Y,并且Y在D中是频繁的

频繁项集挖掘方法

priori(先验)算法

  1. 发现频繁项集




2.产生关联规则



提高Apriori算法的效率

  • 基于散列的计数
  • 事务压缩
  • 划分
  • 抽样
  • 动态项集计数

挖掘频繁项集的模式增长方法——Frequent-Pattern Growth,FP-growth——频繁模式树(FP树)

使用垂直数据格式挖掘频繁项集

挖掘模式和极大模式

—————————————————————————————————————————————————————————————————————————————

模式评估方法

∵强规则不一定是有趣的
∴关联分析——>相关分析

几个度量:

  • 提升度(与零事务有关)
  • X2分析(与零事务有关)
  • 全置信度(零不变度量)
  • 最大置信度(零不变度量)
  • Kulxynaki(零不变度量)
  • 余弦(零不变度量)

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读