常用相似性度量(距离 相似系数)
2011-02-27 21:40
常用相似性度量(距离 相似系数)在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性度量方法. 令X=(x1,x2,..,xn)T,Y=(y1,y2,...yn)T为两个输入向量, ? 1.欧几里得距离(Euclidean distance) 相当于高维空间内向量说表示的点到点之间的距离。 2.马氏距离(Mahalanobis distance) C=E[(X-X平均)(Y-Y平均)]为该类输入向量X的协方差矩阵.(T为转置符号,E取平均时是样本因此为n-1) 适用场合: 3.闵可夫斯基距离(Minkowsk distance) 可看成是欧氏距离的指数推广,还没有见到过很好的应用实例,但通常,推广都是一种进步:) 4.汉明距离(Hamming distance) 还记得汉明码吗,海明距离就是表示X,Y取值不同的分量数目,只适用分量只取-1或1的情况。 5.Tanimoto系数(又称广义Jaccard系数) 通常应用于X为布尔向量,即各分量只取0或1的时候。此时,表示的是X,Y的公共特征的占X,Y所占有的特征的比例。 6.皮尔逊相关系数(Pearson correlation coefficient) 其实就是高中学过的相关系数啦,等于X,Y的协方差除以X,Y的标准差之积。不多说了。 7.余弦相似度(cosine similarity) 就是两个向量之间的夹角的余弦值。 应用场合:通常应用于X为布尔向量,即各分量只取0或1的时候。此时,和Tanimoto类似,是X,Y公共特征数目的测量。 优点:不受坐标轴旋转,放大缩小的影响。 还有一个调整余弦相似度(Adjusted Cosine Similarity),和余弦相似度的计算不同的是,X,Y在减去用户平均评分向量后再代入余弦相似度公式中计算。调整余弦相似度和余弦相似度,皮尔逊相关系数在推荐系统中应用较多。在基于项目的推荐中,GroupLens有篇论文结果表明调整余弦相似度性能要优于后两者。 参考资料: ? 转自:http://hi.baidu.com/black/item/79295353bb1bb8dfd58bac62 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
- 如何在Spring Boot中记录Rest Web服务所用的时间
- 【Cocos-Quick】quick源文件中关于lua的import和
- Can't locate ExtUtils/MakeMaker.pm in @IN
- lua之loadfile ,dofile, loadstring,require
- java – 通过Hessian传输Spring远程传输时,BigD
- delphi dbgrideh 列宽度自适应问题
- golang 标准库间依赖的可视化展示
- delphi – 有一个标准的非模态消息对话框吗?
- 一个菜鸟作的一点汇编笔记
- 114. Flatten Binary Tree to Linked List