加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

数据挖掘 – 在顺序模式挖掘中,一个括号中的项目会被重复出现

发布时间:2020-12-14 04:35:00 所属栏目:大数据 来源:网络整理
导读:我见过许多用于顺序模式挖掘的数据库,它们在这些数据库中采用的序列就像 ≤(AF)(d)(e)中的(a) ≤(E)(ABF)(BDE)GT; 一个括号中的项目集如(af),(abf),(bde)代表什么? 这是否意味着他们彼此或其他相关 我们在什么基础上将项目分类为这一元素? 我使用weblog文
我见过许多用于顺序模式挖掘的数据库,它们在这些数据库中采用的序列就像

≤(AF)(d)(e)中的(a)>

≤(E)(ABF)(BDE)GT;

一个括号中的项目集如(af),(abf),(bde)代表什么?
这是否意味着他们彼此或其他相关

我们在什么基础上将项目分类为这一元素?
我使用weblog文件作为数据集.

解决方法

顺序模式挖掘算法的输入是序列数据库.序列是项集的有序列表.

这是序列的一个例子:

≤(E)(ABF)(BDE)GT;

该序列应解释如下:

首先发生项目“e”.然后同时跟着“a”,“b”和“f”.然后这些项目同时跟随“b”,“d”和“e”.

所以答案是括号之间的项目被假定为无序或同时发生.括号内的项称为“项集”.

请注意,还假设在项目集中没有项目可以出现多次.因此,拥有像(a a b)这样的项目集是违法的

此外,您还应该知道,大多数顺序模式挖掘算法都假设项集中的项是按字母顺序排序的(例如PrefixSpan).如果项目在项目集中没有词法排序,则算法可能无法提供良好的结果,因为它们使用了一些采用此假设的优化.

如果你想尝试一些顺序模式挖掘算法,你可以看看SPMF软件:http://www.philippe-fournier-viger.com/spmf/,它提供了一个图形用户界面和许多例子(我是项目创始人).

希望这能很好地回答你的问题.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读