机器学习 – 比tf/idf和余弦相似性更好的文本文档聚类？

发布时间：2020-12-14 03:18:36 所属栏目：大数据来源：网络整理

导读：我试图集群Twitter流。我想把每个tweet放在一个谈论同一主题的集群上。我尝试使用具有tf / idf和余弦相似度的在线聚类算法对流进行聚类，但是我发现结果相当糟糕。使用tf / idf的主要缺点是它聚集了关键字相似的文档，因此识别附近相同的文档是唯一的好处。

我试图集群Twitter流。我想把每个tweet放在一个谈论同一主题的集群上。我尝试使用具有tf / idf和余弦相似度的在线聚类算法对流进行聚类，但是我发现结果相当糟糕。

使用tf / idf的主要缺点是它聚集了关键字相似的文档，因此识别附近相同的文档是唯一的好处。例如考虑以下句子：

1-网站Stackoverflow是一个不错的地方。
2 Stackoverflow是一个网站。

prevoiuse两个句子可能会与合理的门槛值聚集在一起，因为它们共享了很多关键字。但现在考虑以下两句话：

1-网站Stackoverflow是一个不错的地方。
2-我定期访问Stackoverflow。

现在通过使用tf / idf，聚类算法将会失败，因为它们只分享一个关键字，即使他们都谈论同一个话题。

我的问题是：有更好的技术聚类文件吗？

根据我的经验， latent semantic analysis(LSA / LSI)向量的余弦相似度对于文本聚类来说比原始tf-idf好多了，尽管我承认我没有在Twitter数据上尝试过。特别是，它往往会照顾到您遇到的稀疏性问题，其中文档不包含足够的常用术语。

主题模型如LDA可能会更好。

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!