数据挖掘 – 在顺序模式挖掘中,一个括号中的项目会被重复出现
我见过许多用于顺序模式挖掘的数据库,它们在这些数据库中采用的序列就像
≤(AF)(d)(e)中的(a)> ≤(E)(ABF)(BDE)GT; 一个括号中的项目集如(af),(abf),(bde)代表什么? 我们在什么基础上将项目分类为这一元素? 解决方法
顺序模式挖掘算法的输入是序列数据库.序列是项集的有序列表.
这是序列的一个例子: ≤(E)(ABF)(BDE)GT; 该序列应解释如下: 首先发生项目“e”.然后同时跟着“a”,“b”和“f”.然后这些项目同时跟随“b”,“d”和“e”. 所以答案是括号之间的项目被假定为无序或同时发生.括号内的项称为“项集”. 请注意,还假设在项目集中没有项目可以出现多次.因此,拥有像(a a b)这样的项目集是违法的 此外,您还应该知道,大多数顺序模式挖掘算法都假设项集中的项是按字母顺序排序的(例如PrefixSpan).如果项目在项目集中没有词法排序,则算法可能无法提供良好的结果,因为它们使用了一些采用此假设的优化. 如果你想尝试一些顺序模式挖掘算法,你可以看看SPMF软件:http://www.philippe-fournier-viger.com/spmf/,它提供了一个图形用户界面和许多例子(我是项目创始人). 希望这能很好地回答你的问题. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |