加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

python / scikit-learn中距离计算的稀疏实现

发布时间:2020-12-16 22:11:55 所属栏目:Python 来源:网络整理
导读:我有一个大的(100K×30K)和svmlight格式的(非常)稀疏数据集,我按如下方式加载: import numpy as npfrom scipy.cluster.vq import kmeans2from scipy.spatial.distance import pdist,squareformfrom sklearn.datasets import load_svmlight_fileX,Y = load_s

我有一个大的(100K×30K)和svmlight格式的(非常)稀疏数据集,我按如下方式加载:

import numpy as np
from scipy.cluster.vq import kmeans2
from scipy.spatial.distance import pdist,squareform
from sklearn.datasets import load_svmlight_file

X,Y = load_svmlight_file("somefile_svm.txt")

它返回一个稀疏的scipy数组X.

我只需要计算所有训练点的成对距离

D = pdist(X)

不幸的是,scipy.spatial.distance中的距离计算实现仅适用于密集矩阵.由于数据集的大小,使用pdist作为不可行

D = pdist(X.todense())

任何有关此问题的稀疏矩阵距离计算实现或变通方法的指针都将非常受欢迎.

非常感谢

最佳答案
在scikit-learn中,有一个sklearn.metrics.euclidean_distances函数,适用于稀疏矩阵和密集numpy数组.见reference documentation.

然而,稀疏矩阵尚未实现非欧几里德距离.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读