加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

nlp – 两个文本文档之间的相似性

发布时间:2020-12-14 03:26:38 所属栏目:大数据 来源:网络整理
导读:我正在寻找一个NLP项目,用任何语言(虽然Python将是我的首选)。 我想写一个程序,将需要两个文件,并确定它们是多么类似。 因为我是相当新的这个和一个快速的google搜索不指向我太多。你知道有关这个问题的任何参考文献(网站,教科书,期刊文章),对我有帮助
我正在寻找一个NLP项目,用任何语言(虽然Python将是我的首选)。

我想写一个程序,将需要两个文件,并确定它们是多么类似。

因为我是相当新的这个和一个快速的google搜索不指向我太多。你知道有关这个问题的任何参考文献(网站,教科书,期刊文章),对我有帮助吗?

谢谢

解决方法

这样做的常见方法是将文档转换为tf-idf向量,然后计算它们之间的余弦相似性。任何关于信息检索的教科书都涵盖了这一点。参见例如。 Introduction to Information Retrieval,这是免费的,在线可用。

Tf-idf(以及类似的文本转换)在Python包Gensim和scikit-learn中实现。在后一个包中,计算余弦相似性就像

from sklearn.feature_extraction.text import TfidfVectorizer

documents = [open(f) for f in text_files]
tfidf = TfidfVectorizer().fit_transform(documents)
# no need to normalize,since Vectorizer will return normalized tf-idf
pairwise_similarity = tfidf * tfidf.T

或者,如果文档是纯字符串,

>>> vect = TfidfVectorizer(min_df=1)
>>> tfidf = vect.fit_transform(["I'd like an apple",...                             "An apple a day keeps the doctor away",...                             "Never compare an apple to an orange",...                             "I prefer scikit-learn to Orange"])
>>> (tfidf * tfidf.T).A
array([[ 1.,0.25082859,0.39482963,0.        ],[ 0.25082859,1.,0.22057609,[ 0.39482963,0.26264139],[ 0.,0.,0.26264139,1.        ]])

虽然Gensim可能有更多的选择这种任务。

参见this question。

[免责声明:我参与了scikit-learn tf-idf实现。]

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读