使用SciKit在python中记录文档聚类
我最近开始使用
python中的SciKit模块进行文档聚类.但是,我很难理解文档聚类的基础知识.
我知道的 ? >文档聚类通常使用TF / IDF完成.基本上 我的数据: >我正在尝试使用linkedin数据,每个文档都是 目前的挑战: >我的数据有大量的摘要描述,最终变成了10000 我浏览了SciKit网页上的代码,它包含了太多我不理解的技术词汇,如果你们有任何代码都有很好的解释或评论请分享.提前致谢. 解决方法
我的第一个建议是,除非你因为内存或执行时间问题而绝对必须这样做. 如果你必须处理它,你应该使用降维(例如PCA)或feature selection(在你的情况下可能更好,例如参见chi2)
如果你看一下the clustering algorithms available in scikit-learn,你会发现并非所有这些都要求你指定集群的数量. 另一个不是层次聚类,implemented in scipy.另见this answer. 我还建议您使用KMeans并尝试手动调整群集数量,直到您对结果满意为止.
Scikit有许多处理文本数据的教程,只需在他们的网站上使用“文本数据”搜??索查询.一个用于KMeans,另一个用于监督学习,但我建议你仔细阅读这些以便更熟悉图书馆.在我看来,从编码,风格和语法POV来看,无监督和监督学习在scikit-learn中非常相似.
这里的小修正:TF-IDF与聚类无关.它只是一种将文本数据转换为数字数据的方法.之后,它并不关心您对该数据(聚类,分类,回归,搜索引擎等)的处理方式. 我理解你试图传达的信息,但说“使用TF-IDF完成聚类”是不正确的.它使用聚类算法完成,TF-IDF仅在文档聚类中起预处理作用. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |