【Scikit-Learn 中文文档】机器学习: scikit-learn 中的设置以及

发布时间：2020-12-14 04:54:55 所属栏目：大数据来源：网络整理

导读：中文文档:?http://sklearn.apachecn.org/cn/stable/tutorial/statistical_inference/settings.html 英文文档:?http://sklearn.apachecn.org/en/stable/tutorial/statistical_inference/settings.html 官方文档:? http://scikit-learn.org/stable/ GitHub:? h

中文文档:?http://sklearn.apachecn.org/cn/stable/tutorial/statistical_inference/settings.html

英文文档:?http://sklearn.apachecn.org/en/stable/tutorial/statistical_inference/settings.html

官方文档:?http://scikit-learn.org/stable/

GitHub:?https://github.com/apachecn/scikit-learn-doc-zh（觉得不错麻烦给个 Star，我们一直在努力）

贡献者:?https://github.com/apachecn/scikit-learn-doc-zh#贡献者

关于我们:?http://www.apachecn.org/organization/209.html

机器学习: scikit-learn 中的设置以及预估对象

数据集

Scikit-learn可以从一个或者多个数据集中学习信息，这些数据集合可表示为2维阵列，也可认为是一个列表。列表的第一个维度代表?样本?，第二个维度代表?特征?（每一行代表一个样本，每一列代表一种特征）。

样例: iris 数据集（鸢尾花卉数据集）

 
    >>> 
    >>> from sklearn import datasets
>>> iris = datasets.load_iris()
>>> data = iris.data
>>> data.shape
(150,4)
 
   

这个数据集包含150个样本，每个样本包含4个特征：花萼长度，花萼宽度，花瓣长度，花瓣宽度，详细数据可以通过``iris.DESCR``查看。

如果原始数据不是``(n_samples,n_features)``的形状时，使用之前需要进行预处理以供scikit-learn使用。

数据预处理样例:digits数据集(手写数字数据集)

digits数据集包含1797个手写数字的图像，每个图像为8*8像素

 
    >>> digits .load_digits()
>>> digits.images(1797,8,8)
import matplotlib.pyplot as plt 
>>> plt.imshow(digits.images[-1], cmap=plt.cm.gray_r) 
<matplotlib.image.AxesImage object at ...>
 
   

为了在scikit中使用这一数据集，需要将每一张8×8的图像转换成长度为64的特征向量

 
    = digits.reshape((digits.shape[0], 1))

预估对象

拟合数据: scikit-learn实现最重要的一个API是`estimator`。estimators是基于数据进行学习的任何对象，它可以是一个分类器，回归或者是一个聚类算法，或者是从原始数据中提取/过滤有用特征的变换器。

所有的拟合模型对象拥有一个名为``fit``的方法，参数是一个数据集（通常是一个2维列表）:

>>>

有兴趣的们也可以和我们一起来维护，持续更新中。。。

机器学习交流群:?629470233

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!