加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

常用相似性、相关性度量指标

发布时间:2020-12-14 03:04:44 所属栏目:大数据 来源:网络整理
导读:? 本文将介绍一些数据挖掘、机器学习、信息检索等领域中常用的一些相似性、相关性度量指标: (1)Euclidean Distance (欧几里德距离、欧氏距离) ? ? ? ? ?设有两个向量 , ? ? ? ? ?它们之间的Euclidean Distance为: ? ? ? ? ? ,值越小越相似。 (2) M

? 本文将介绍一些数据挖掘、机器学习、信息检索等领域中常用的一些相似性、相关性度量指标:

(1)Euclidean Distance(欧几里德距离、欧氏距离)

? ? ? ? ?设有两个向量

? ? ? ? ?它们之间的Euclidean Distance为:

? ? ? ? ?

,值越小越相似。


(2)Manhattan Distance(曼哈顿距离)

? ? ? ? ?设有两个向量

? ? ? ? ?它们之间的Manhattan?Distance为:

? ? ? ? ? ? ??

,值越小越相似。


(3)Minkowsk?Distance闵可夫斯基距离)

? ? ? ? ?设有两个向量

? ? ? ? ?它们之间的Minkowsk?Distance为:

? ? ? ? ?

,值越小越相似。


(4)Hamming?Distance海明距离)

? ? ? ? ??Hamming?Distance可以用来度量两个串(通常是二进制串)的距离,其定义为这两个二进制串对应的位有几个不一样,那么海明距离就是几,值越小越相似。例如x=1010,y=1011,那么x和y的海明距离就是1。又如x=1000,y=1111,那么x和y的海明距离就是3。


(5)Jaccard?CoefficientJaccard?系数

? ? ? ? ?Jaccard?Coefficient用来度量两个集合的相似度,设有两个集合

,它们之间的Jaccard?Coefficient定义为:

? ? ? ? ?

,值越大越相似。

? ? ? ? ? 例如

,则


(6)Pearson Correlation Coefficient(皮尔森相关系数

? ? ? ? ?设有两个向量

? ? ? ? ?它们之间的Pearson Correlation Coefficient为:

? ? ? ? ?

,值越大越相关。


(7)Cosine Similarity余弦相似度

? ? ? ? ?设有两个向量

? ? ? ? ?它们之间的Cosine Similarity为:

? ? ? ? ? ? ? ?

,值越大越相似。


(8)Mahalanobis Distance(马氏距离)

? ? ? ? ?设有两个向量

? ? ? ? ?它们之间的Mahalanobis Distance为:

? ? ? ? ?

,值越小越相似。

? ? ? ? ? 其中

为x和y的协方差矩阵。


(9)Kullback-Leibler?Divergence(KL散度)

? ? ? ? ? ?KL散度用来度量两个分布之间的距离,分布P和分布Q的KL散度定义为:

? ? ? ? ??

,值越小,两个分布就越相似。


(10)PMI?(Pointwise Mutual Information,点对互信息)

? ? ? ? ??PMI利用co-occurance来衡量两个东西x和y的相似度,定义为:

? ? ? ? ??

,值越大越相关。

? ? ? ? ? 其中

为x,y一起出现的概率,

为x出现的概率,

为y出现的概率。


(11)NGD(Normalized?Google?Distance

? ? ? ? ? ?NGD可以用来度量两个东西x和y之间的相关性,作用和PMI有点类似,定义为:

? ? ? ? ??

,值越大越相关。
? ? ? ? ? ? ? ? ?其中

是x在文档集中出现的频率,

是y在文档集中出现的频率,

是x,y在文档集中一起出现的频率,

是文档集的大小。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读