加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

TF-IDF与余弦相似性

发布时间:2020-12-14 02:45:00 所属栏目:大数据 来源:网络整理
导读:TF-IDF算法 将 "词频"(TF)和"逆文档频率"(IDF)这两个值相乘,就得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的几个词,就是这篇文章的关键词。 TF-IDF?=?TF?*?IDF 可以看到,TF-IDF与一个词在文档中的出现

TF-IDF算法

"词频"(TF)和"逆文档频率"(IDF)这两个值相乘,就得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的几个词,就是这篇文章的关键词。

TF-IDF?=?TF?*?IDF

可以看到,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。


余弦相似性

计算两个向量的余弦值,余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。

假定a向量是[x1,y1],b向量是[x2,y2],那么可以将余弦定理改写成下面的形式

余弦的这种计算方法对n维向量也成立。假定A和B是两个n维向量,A是 [A1,A2,...,An] ,B是 [B1,B2,Bn] ,则A与B的夹角θ的余弦等于:

计算两篇文章的相似性:

????(1)使用TF-IDF算法,找出两篇文章的关键词;

????(2)每篇文章各取出若干个关键词(比如20个),合并成一个集合,计算每篇文章对于这个集合中的词的词频(为了避免文章长度的差异,可以使用相对词频);

????(3)生成两篇文章各自的词频向量;

????(4)计算两个向量的余弦相似度,值越大就表示越相似。


[参考文献]

TF-IDF与余弦相似性的应用(一):自动提取关键词????http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读