加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

机器学习 – 比tf/idf和余弦相似性更好的文本文档聚类?

发布时间:2020-12-14 03:18:36 所属栏目:大数据 来源:网络整理
导读:我试图集群Twitter流。我想把每个tweet放在一个谈论同一主题的集群上。我尝试使用具有tf / idf和余弦相似度的在线聚类算法对流进行聚类,但是我发现结果相当糟糕。 使用tf / idf的主要缺点是它聚集了关键字相似的文档,因此识别附近相同的文档是唯一的好处。
我试图集群Twitter流。我想把每个tweet放在一个谈论同一主题的集群上。我尝试使用具有tf / idf和余弦相似度的在线聚类算法对流进行聚类,但是我发现结果相当糟糕。

使用tf / idf的主要缺点是它聚集了关键字相似的文档,因此识别附近相同的文档是唯一的好处。例如考虑以下句子:

1-网站Stackoverflow是一个不错的地方。
2 Stackoverflow是一个网站。

prevoiuse两个句子可能会与合理的门槛值聚集在一起,因为它们共享了很多关键字。但现在考虑以下两句话:

1-网站Stackoverflow是一个不错的地方。
2-我定期访问Stackoverflow。

现在通过使用tf / idf,聚类算法将会失败,因为它们只分享一个关键字,即使他们都谈论同一个话题。

我的问题是:有更好的技术聚类文件吗?

解决方法

根据我的经验, latent semantic analysis(LSA / LSI)向量的余弦相似度对于文本聚类来说比原始tf-idf好多了,尽管我承认我没有在Twitter数据上尝试过。特别是,它往往会照顾到您遇到的稀疏性问题,其中文档不包含足够的常用术语。

主题模型如LDA可能会更好。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读