nlp – 两个文本文档之间的相似性
发布时间:2020-12-14 03:26:38 所属栏目:大数据 来源:网络整理
导读:我正在寻找一个NLP项目,用任何语言(虽然Python将是我的首选)。 我想写一个程序,将需要两个文件,并确定它们是多么类似。 因为我是相当新的这个和一个快速的google搜索不指向我太多。你知道有关这个问题的任何参考文献(网站,教科书,期刊文章),对我有帮助
我正在寻找一个NLP项目,用任何语言(虽然Python将是我的首选)。
我想写一个程序,将需要两个文件,并确定它们是多么类似。 因为我是相当新的这个和一个快速的google搜索不指向我太多。你知道有关这个问题的任何参考文献(网站,教科书,期刊文章),对我有帮助吗? 谢谢 解决方法
这样做的常见方法是将文档转换为tf-idf向量,然后计算它们之间的余弦相似性。任何关于信息检索的教科书都涵盖了这一点。参见例如。
Introduction to Information Retrieval,这是免费的,在线可用。
Tf-idf(以及类似的文本转换)在Python包Gensim和scikit-learn中实现。在后一个包中,计算余弦相似性就像 from sklearn.feature_extraction.text import TfidfVectorizer documents = [open(f) for f in text_files] tfidf = TfidfVectorizer().fit_transform(documents) # no need to normalize,since Vectorizer will return normalized tf-idf pairwise_similarity = tfidf * tfidf.T 或者,如果文档是纯字符串, >>> vect = TfidfVectorizer(min_df=1) >>> tfidf = vect.fit_transform(["I'd like an apple",... "An apple a day keeps the doctor away",... "Never compare an apple to an orange",... "I prefer scikit-learn to Orange"]) >>> (tfidf * tfidf.T).A array([[ 1.,0.25082859,0.39482963,0. ],[ 0.25082859,1.,0.22057609,[ 0.39482963,0.26264139],[ 0.,0.,0.26264139,1. ]]) 虽然Gensim可能有更多的选择这种任务。 参见this question。 [免责声明:我参与了scikit-learn tf-idf实现。] (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |