数据挖掘 – 在顺序模式挖掘中,一个括号中的项目会被重复出现

发布时间：2020-12-14 04:35:00 所属栏目：大数据来源：网络整理

导读：我见过许多用于顺序模式挖掘的数据库,它们在这些数据库中采用的序列就像 ≤(AF)(d)(e)中的(a) ≤(E)(ABF)(BDE)GT; 一个括号中的项目集如(af),(abf),(bde)代表什么？这是否意味着他们彼此或其他相关我们在什么基础上将项目分类为这一元素？我使用weblog文

我见过许多用于顺序模式挖掘的数据库,它们在这些数据库中采用的序列就像

≤(AF)(d)(e)中的(a)>

≤(E)(ABF)(BDE)GT;

一个括号中的项目集如(af),(abf),(bde)代表什么？
这是否意味着他们彼此或其他相关

我们在什么基础上将项目分类为这一元素？
我使用weblog文件作为数据集.

解决方法

顺序模式挖掘算法的输入是序列数据库.序列是项集的有序列表.

这是序列的一个例子：

≤(E)(ABF)(BDE)GT;

该序列应解释如下：

首先发生项目“e”.然后同时跟着“a”,“b”和“f”.然后这些项目同时跟随“b”,“d”和“e”.

所以答案是括号之间的项目被假定为无序或同时发生.括号内的项称为“项集”.

请注意,还假设在项目集中没有项目可以出现多次.因此,拥有像(a a b)这样的项目集是违法的

此外,您还应该知道,大多数顺序模式挖掘算法都假设项集中的项是按字母顺序排序的(例如PrefixSpan).如果项目在项目集中没有词法排序,则算法可能无法提供良好的结果,因为它们使用了一些采用此假设的优化.

如果你想尝试一些顺序模式挖掘算法,你可以看看SPMF软件：http://www.philippe-fournier-viger.com/spmf/,它提供了一个图形用户界面和许多例子(我是项目创始人).

希望这能很好地回答你的问题.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!