模式匹配 – 闭合和开放顺序模式挖掘算法之间的差异
我想使用一些算法挖掘我的日志数据。
我发现了一个模式挖掘框架:http://www.philippe-fournier-viger.com/spmf/index.php?link=algorithms.php 我尝试了几种算法,BIDE算法执行得最好。 BIDE算法用于从序列数据库挖掘频繁闭合的序列模式。 我不清楚关于“封闭”的绝对模式和开放模式的定义。有人可以帮我解释一下吗?一些例子将是非常赞许的。 解决方法
很高兴你使用我的
SPMF software。
序列模式的支持是包含顺序模式的序列数。 频繁的顺序模式是出现在序列数据库的至少“minsup”序列中的模式,其中minsup是用户设置的参数。 频繁闭合顺序模式是频繁的顺序模式,使得其不包括在具有完全相同支持的另一顺序模式中。 诸如PrefixSpan之类的算法找到频繁的顺序模式。像BIDE这样的算法发现频繁的闭合顺序模式。 BIDE通常比PrefixSpan快得多,因为它使用修剪技术来避免生成所有的顺序模式。此外,闭合图案的集合通常比顺序模式的集合小得多,所以BIDE也是更高的记忆效率。 另一个重要的事情是,封闭的顺序模式是所有顺序模式的紧凑且无损的表示。这意味着闭合顺序模式的集合通常要小得多,但是它是无损的,这意味着它允许恢复全套顺序模式(没有信息丢失),这是非常方便的。 我可以给你一个简单的例子。 我们来看看4个序列: a b c d e a b d b e a c b c d e 让我们说minsup = 2。 b c是频繁的顺序模式,因为它出现在两个序列中(它具有2的支持)。 b c不是封闭的顺序模式,因为它包含在具有相同支持的较大顺序模式b c中。 b c具有2的支持。它也不是封闭的顺序模式,因为它包含在具有相同支持的较大顺序模式中。 b c d e是封闭的顺序模式,因为它不包括在具有相同支持的任何其它顺序模式中。 顺便说一下,您还可以查看我的有关sequential pattern mining的调查。它介绍了这个主题和不同的算法。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |