nlp – 两个文本文档之间的相似性

发布时间：2020-12-14 03:26:38 所属栏目：大数据来源：网络整理

导读：我正在寻找一个NLP项目，用任何语言(虽然Python将是我的首选)。我想写一个程序，将需要两个文件，并确定它们是多么类似。因为我是相当新的这个和一个快速的google搜索不指向我太多。你知道有关这个问题的任何参考文献(网站，教科书，期刊文章)，对我有帮助

我正在寻找一个NLP项目，用任何语言(虽然Python将是我的首选)。

我想写一个程序，将需要两个文件，并确定它们是多么类似。

因为我是相当新的这个和一个快速的google搜索不指向我太多。你知道有关这个问题的任何参考文献(网站，教科书，期刊文章)，对我有帮助吗？

谢谢

解决方法

这样做的常见方法是将文档转换为tf-idf向量，然后计算它们之间的余弦相似性。任何关于信息检索的教科书都涵盖了这一点。参见例如。 Introduction to Information Retrieval，这是免费的，在线可用。

Tf-idf(以及类似的文本转换)在Python包Gensim和scikit-learn中实现。在后一个包中，计算余弦相似性就像

from sklearn.feature_extraction.text import TfidfVectorizer

documents = [open(f) for f in text_files]
tfidf = TfidfVectorizer().fit_transform(documents)
# no need to normalize,since Vectorizer will return normalized tf-idf
pairwise_similarity = tfidf * tfidf.T

或者，如果文档是纯字符串，

>>> vect = TfidfVectorizer(min_df=1)
>>> tfidf = vect.fit_transform(["I'd like an apple",...                             "An apple a day keeps the doctor away",...                             "Never compare an apple to an orange",...                             "I prefer scikit-learn to Orange"])
>>> (tfidf * tfidf.T).A
array([[ 1.,0.25082859,0.39482963,0.        ],[ 0.25082859,1.,0.22057609,[ 0.39482963,0.26264139],[ 0.,0.,0.26264139,1.        ]])

虽然Gensim可能有更多的选择这种任务。

参见this question。

[免责声明：我参与了scikit-learn tf-idf实现。]

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!