余弦相似性cosine similiarity

发布时间：2020-12-14 03:42:37 所属栏目：大数据来源：网络整理

导读：句子A：我喜欢看电视，不喜欢看电影。句子B：我不喜欢看电视，也不喜欢看电影。? 怎样计算上面两句话的相似程度？ ?基本思路是：如果这两句话的用词越相似，它们的内容就应该越相似。因此，可以从词频入手，计算它们的相似程度。第一步，分词。句子A：我

句子A：我喜欢看电视，不喜欢看电影。　　

句子B：我不喜欢看电视，也不喜欢看电影。?

怎样计算上面两句话的相似程度？

?基本思路是：如果这两句话的用词越相似，它们的内容就应该越相似。因此，可以从词频入手，计算它们的相似程度。

第一步，分词。

句子A：我/喜欢/看/电视，不/喜欢/看/电影。

句子B：我/不/喜欢/看/电视，也/不/喜欢/看/电影。

第二步，列出所有的词。

我，喜欢，看，电视，电影，不，也

第三步，计算词频。

句子A：我 1，喜欢 2，看 2，电视 1，电影 1，不 1，也 0。

句子B：我 1，喜欢 2，看 2，电视 1，电影 1，不 2，也 1。　　

第四步，写出词频向量。

句子A：[1,2,1,0]

句子B：[1,1]

则问题就变成了如何计算这两个向量的相似程度。

我们可以把它们想象成空间中的两条线段，都是从原点（[0,...]）出发，指向不同的方向。两条线段之间形成一个夹角，如果夹角为0度，意味着方向相同、线段重合；如果夹角为90度，意味着形成直角，方向完全不相似；如果夹角为180度，意味着方向正好相反。因此，我们可以通过夹角的大小，来判断向量的相似程度。夹角越小，就代表越相似。

以二维空间为例，上图的a和b是两个向量，我们要计算它们的夹角θ。余弦定理告诉我们，可以用下面的公式求得：

假定a向量是[x1,y1]，b向量是[x2,y2]，那么可以将余弦定理改写成下面的形式：

余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，这就叫"余弦相似性"。

"找出相似文章"的一种算法：

? ? （1）使用TF-IDF算法，找出两篇文章的关键词；

　　（2）每篇文章各取出若干个关键词（比如20个），合并成一个集合，计算每篇文章对于这个集合中的词的词频（为了避免文章长度的差异，可以使用相对词频）；

　　（3）生成两篇文章各自的词频向量；

　　（4）计算两个向量的余弦相似度，值越大就表示越相似。

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!