加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

python – XgBoost:y中填充最少的类只有1个成员,这个成员太少

发布时间:2020-12-16 22:50:10 所属栏目:Python 来源:网络整理
导读:我在sklearn上使用Xgboost实现了一个讨人喜欢的比赛. 但是,我收到此“警告”消息: $python Script1.py /home/sky/private/virtualenv15.0.1dev/myVE/local/lib/python2.7/site-packages/sklearn/cross_validation.py:516: 警告:y中填充最少的类只有1个成

我在sklearn上使用Xgboost实现了一个讨人喜欢的比赛.
但是,我收到此“警告”消息:

$python Script1.py
/home/sky/private/virtualenv15.0.1dev/myVE/local/lib/python2.7/site-packages/sklearn/cross_validation.py:516:

警告:y中填充最少的类只有1个成员,这个成员太少了.任何类的最小标签数不能少于n_folds = 3.
??%(min_labels,self.n_folds)),警告)

根据stackoverflow的另一个问题:
“检查每个类至少有3个样本能够用k == 3进行StratifiedKFold交叉验证(我认为这是GridSearchCV用于分类的默认CV).”

好吧,我每班至少有3个样本.

所以我的问题是:

a)有哪些替代方案?

b)为什么我不能使用交叉验证?

c)我可以使用什么?

...
param_test1 = {
    'max_depth': range(3,10,2),'min_child_weight': range(1,6,2)
}

grid_search = GridSearchCV(

estimator=
XGBClassifier(
    learning_rate=0.1,n_estimators=3000,max_depth=15,min_child_weight=1,gamma=0,subsample=0.8,colsample_bytree=0.8,objective='multi:softmax',nthread=42,scale_pos_weight=1,seed=27),param_grid=param_test1,scoring='roc_auc',n_jobs=42,iid=False,cv=None,verbose=1)
...

grid_search.fit(train_x,place_id)

参考文献:

One-shot learning with scikit-learn

Using a support vector classifier with polynomial kernel in scikit-learn

最佳答案
如果您的目标/类只有一个样本,那对于任何模型来说都太少了.您可以做的是获得另一个数据集,最好尽可能平衡,因为大多数模型在平衡集中表现更好.

如果您不能拥有其他数据集,则必须使用您拥有的数据集.我建议你删除那个有孤独目标的样本.因此,您将拥有一个不涵盖该目标的模型.如果这不符合您的要求,您需要一个新的数据集.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读