加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

python – 将gensim相似度计算限制为语料库的子集

发布时间:2020-12-20 13:10:07 所属栏目:Python 来源:网络整理
导读:我想在 Python上使用gensim计算文档之间的相似性. 我想要一种能够将计算限制为仅仅是语料库的子集的方法.具体来说,我的文档有一个相关的年份,我想要一种只计算搜索文档和其他文档之间相似性的方法,这些文档对该变量具有相同的值. 我看不到任何关于例如关于如
我想在 Python上使用gensim计算文档之间的相似性.

我想要一种能够将计算限制为仅仅是语料库的子集的方法.具体来说,我的文档有一个相关的年份,我想要一种只计算搜索文档和其他文档之间相似性的方法,这些文档对该变量具有相同的值.

我看不到任何关于例如关于如何将附加变量与每个文档相关联的http://radimrehurek.com/gensim/simserver.html,以及如何将相似性限制为仅仅那些文档 – 实际上我想要做的可能是不可行的.因此,我的问题是,这是可能的,或者是使用多个语料库实现此目的的唯一方法.

解决方法

你可以通过忽略不适合你的目标年份的结果来解决它.

>为您的文档创建document2year_dict(文档,年份).>按距离顺序获取文档列表target_document.>遍历列表并丢弃文档if document2year_dict [current_document]!= target_year

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读