相似性度量

发布时间：2020-12-14 04:56:48 所属栏目：大数据来源：网络整理

导读：https://www.zhihu.com/question/21824291 修正cosine考虑的是对item（商品） i打过分的每个user u，其打分的均值， Pearson考虑的是每个item i 的被打分的均值 amp;amp;lt;img src=quot;https://www.jb51.cc/res/2020/10-09/08/b6678b61fc04b09d1a85e8698a6

https://www.zhihu.com/question/21824291

修正cosine考虑的是对item（商品） i打过分的每个user u，其打分的均值，
Pearson考虑的是每个item i 的被打分的均值

&amp;lt;img src="https://www.52php.cn/res/2020/10-09/08/b6678b61fc04b09d1a85e8698a666de3.jpg" data-rawwidth="567" data-rawheight="286" class="origin_image zh-lightbox-thumb" width="567" data-original="https://pic4.zhimg.com/2d9e3af80ceb49945ce5c0f34d26c9e3_r.jpg"&amp;gt;

进一步引申， 各种相似度与点积关系的推演：

cosine相似度，其实就是归一化后的点积结果，
Pearson相关系数是去中心化&归一化的点积结果
修正cosine相似度，也是去中心化&归一化的点积结果，与Pearson的差别就在于去中心化的差异（上面描述的）

公式参考如下：

点积： &amp;lt;img src="https://www.52php.cn/res/2020/10-09/08/5eeffd8aa45a3666e42abf6454a90b8f.jpg" data-rawwidth="319" data-rawheight="70" class="content_image" width="319"&amp;gt;

cosine相似度：
&amp;lt;img src="https://www.52php.cn/res/2020/10-09/08/b3cad9985752850c108eb998aaabd318.jpg" data-rawwidth="475" data-rawheight="105" class="origin_image zh-lightbox-thumb" width="475" data-original="https://pic1.zhimg.com/b3cad9985752850c108eb998aaabd318_r.jpg"&amp;gt;

Pearson相关系数：

若要用修正余弦相似度则需要确定每类商品中哪些是用户a打的分哪些是用户b打的分，哪些是用户c打的分。。。，而若用皮尔逊相关系数则不需要商品的用户信息，只需要不同商品的样本即可。

https://www.zhihu.com/question/19734616?sort=created

要理解Pearson相关系数，首先要理解协方差（Covariance），协方差是一个反映两个随机变量相关程度的指标，如果一个变量跟随着另一个变量同时变大或者变小，那么这两个变量的协方差就是正值，反之相反，公式如下：

&lt;img src="https://pic3.zhimg.com/50/0dfac74fd0cc7e4670fc04e15a5d79e2_hd.png" data-rawwidth="381" data-rawheight="67" class="content_image" width="381"&gt;

Pearson相关系数公式如下：

&lt;img src="https://pic2.zhimg.com/50/95c7b4484dc46f28390c4de96c83b915_hd.png" data-rawwidth="430" data-rawheight="62" class="origin_image zh-lightbox-thumb" width="430" data-original="https://pic2.zhimg.com/95c7b4484dc46f28390c4de96c83b915_r.png"&gt;

由公式可知，Pearson相关系数是用协方差除以两个变量的标准差得到的，虽然协方差能反映两个随机变量的相关程度（协方差大于0的时候表示两者正相关，小于0的时候表示两者负相关），但是协方差值的大小并不能很好地度量两个随机变量的关联程度，例如，现在二维空间中分布着一些数据，我们想知道数据点坐标X轴和Y轴的相关程度，如果X与Y的相关程度较小但是数据分布的比较离散，这样会导致求出的协方差值较大，用这个值来度量相关程度是不合理的，如下图：

&lt;img src="https://pic3.zhimg.com/50/e7579024b7774f6f9b7fa80588e53532_hd.png" data-rawwidth="406" data-rawheight="374" class="content_image" width="406"&gt;

为了更好的度量两个随机变量的相关程度，引入了Pearson相关系数，其在协方差的基础上除以了两个随机变量的标准差，容易得出，pearson是一个介于-1和1之间的值，当两个变量的线性关系增强时，相关系数趋于1或-1；当一个变量增大，另一个变量也增大时，表明它们之间是正相关的，相关系数大于0；如果一个变量增大，另一个变量却减小，表明它们之间是负相关的，相关系数小于0；如果相关系数等于0，表明它们之间不存在线性相关关系。《数据挖掘导论》给出了一个很好的图来说明：

&lt;img src="https://pic2.zhimg.com/50/e31afcd8a6fa446a5b5b0bdd87606f1d_hd.png" data-rawwidth="561" data-rawheight="383" class="origin_image zh-lightbox-thumb" width="561" data-original="https://pic2.zhimg.com/e31afcd8a6fa446a5b5b0bdd87606f1d_r.png"&gt;

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!