python – 将gensim相似度计算限制为语料库的子集

发布时间：2020-12-20 13:10:07 所属栏目：Python 来源：网络整理

导读：我想在 Python上使用gensim计算文档之间的相似性. 我想要一种能够将计算限制为仅仅是语料库的子集的方法.具体来说,我的文档有一个相关的年份,我想要一种只计算搜索文档和其他文档之间相似性的方法,这些文档对该变量具有相同的值. 我看不到任何关于例如关于如

我想在 Python上使用gensim计算文档之间的相似性.

我想要一种能够将计算限制为仅仅是语料库的子集的方法.具体来说,我的文档有一个相关的年份,我想要一种只计算搜索文档和其他文档之间相似性的方法,这些文档对该变量具有相同的值.

我看不到任何关于例如关于如何将附加变量与每个文档相关联的http://radimrehurek.com/gensim/simserver.html,以及如何将相似性限制为仅仅那些文档 – 实际上我想要做的可能是不可行的.因此,我的问题是,这是可能的,或者是使用多个语料库实现此目的的唯一方法.

你可以通过忽略不适合你的目标年份的结果来解决它.

>为您的文档创建document2year_dict(文档,年份).>按距离顺序获取文档列表target_document.>遍历列表并丢弃文档if document2year_dict [current_document]！= target_year

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!