加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

文本 – 有人可以用非常简单的图形方式给出余弦相似性的例子吗?

发布时间:2020-12-14 03:09:53 所属栏目:大数据 来源:网络整理
导读:Cosine Similarity article on Wikipedia 你可以在这里显示向量(在列表或某事) 然后做数学,让我们看看它是如何工作的? 我是一个初学者。 解决方法 以下是两个非常短的文本比较: 朱丽爱我比琳达爱我 Jane喜欢我比Julie爱我 我们想知道这些文本是如何相似,
Cosine Similarity article on Wikipedia

你可以在这里显示向量(在列表或某事)
然后做数学,让我们看看它是如何工作的?

我是一个初学者。

解决方法

以下是两个非常短的文本比较:

>朱丽爱我比琳达爱我
> Jane喜欢我比Julie爱我

我们想知道这些文本是如何相似,纯粹是根据字数(和忽略字序)。我们从两个文本的单词开始:

me Julie loves Linda than more likes Jane

现在我们计算每个单词出现在每个文本中的次数:

me   2   2
 Jane   0   1
Julie   1   1
Linda   1   0
likes   0   1
loves   2   1
 more   1   1
 than   1   1

我们对这些话本身不感兴趣。我们只感兴趣
这两个垂直计数向量。例如,有两个实例
‘我’在每个文本。我们将决定这两个文本是如何接近每个
其他通过计算这两个向量的一个函数,即余弦
它们之间的角度。

这两个向量也是:

a: [2,1,2,1]

b: [2,1]

它们之间的角度的余弦为约0.822。

这些向量是8维的。使用余弦相似性的好处是明显的它将一个超越人类能力的问题转化为可视化的问题可以。在这种情况下,你可以认为这是大约35°的角度度为零或完全一致的“距离”。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读