相似性度量--Pearson相关系数
Pearson 相关系数Pearson 相关系数介绍pearson是一个介于-1和1之间的值,用来描述两组线性的数据一同变化移动的趋势。 当两个变量的线性关系增强时,相关系数趋于1或-1;当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;如果一个变量增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于0;如果相关系数等于0,表明它们之间不存在线性相关关系。 用数学公式表示,皮尔森相关系数等于两个变量的协方差除于两个变量的标准差。
协方差(Covariance):在概率论和统计学中用于衡量两个变量的总体误差。如果两个变量的变化趋于一致,也就是说如果其中一个大于自身的期望值,另一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,则协方差为负值。
其中u表示X的期望E(X),v表示Y的期望E(Y) 由于pearson描述的是两组数据变化移动的趋势,所以在基于user-based的协同过滤系统中,经常使用。描述用户购买或评分变化的趋势,若趋势相近则pearson系数趋近于1,也就是我们认为相似的用户。 Pearson 相关系数的缺陷直观的可以看出,pearson不适用于文本的相似性分析。 pearson存在以下3个问题: 以下图的数据作为测试用例 ???? 同样的场景在现实生活中也经常发生,比如两个用户共同观看了200部电影,虽然不一定给出相同或完全相近的评分,但只要他们之间的趋势相似也应该比另一位只观看了2部相同电影的相似度高!但事实并不如此,如果对这两部电影,两个用户给出的相似度相同或很相近,通过Pearson相关性计算出的相似度会明显大于观看了相同的200部电影的用户之间的相似度。 2.如果只有一个重叠项则无法计算相关性 3.如果一组记录的所有评分都一样则无法计算相关性 4.Pearson系数对绝对数值不敏感 ????可以看出pearson系数对绝对数值并不敏感,它确实只是描述了两组数据变化的趋势。 转载:相似性度量--Pearson相关系数 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |