频繁项集挖掘之Aprior和FPGrowth算法
频繁项集挖掘的应用多出现于购物篮分析,现介绍两种频繁项集的挖掘算法Aprior和FPGrowth,用以发现购物篮中出现频率较高的购物组合。 基础知识 项:“属性-值”对。比如啤酒2罐。 Aprior算法 Aprior算法的基本思想是由
连接定理和频繁子集定理 连接定理:解决如何由
Aprior算法步骤 1. 扫描数据库,产生候选1项集和频繁项集。 Apriro优缺点 Aprior优点: FPGrowth算法FPGrowth的基本思想是将原始数据压缩到一个FPTree上,在该树上进行频繁项集的挖掘。(FPTree是共用前缀的) FPGrowth算法步骤
讲地非常好的FPGrowth算法博客(包括原理讲解和代码实现): (1)http://www.voidcn.com/article/p-mtckbvxy-hy.html (2)http://www.cnblogs.com/zhangchaoyang/articles/2198946.html FPGrowth优缺点优点: 1)只需要扫描两边数据库,效率高。 2)可以并行化实现。 缺点: 1)受内存大小限制。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |