scala – 可以在Spark MLlib随机森林培训中使用样本重量吗？

发布时间：2020-12-16 18:31:30 所属栏目：安全来源：网络整理

导读：我使用Spark 1.5.0 MLlib Random Forest算法( scala代码)来做两类分类.由于我使用的数据集非常不平衡,因此大多数类以10％的采样率进行下采样.在Spark随机森林培训中是否可以使用采样权重(在这种情况下为10)？我没有在随机森林中看到trainClassifier()的输入

我使用Spark 1.5.0 MLlib Random Forest算法( scala代码)来做两类分类.由于我使用的数据集非常不平衡,因此大多数类以10％的采样率进行下采样.在Spark随机森林培训中是否可以使用采样权重(在这种情况下为10)？我没有在随机森林中看到trainClassifier()的输入参数中的权重.我也在stackoverflow中进行了搜索,但在这个主题上找不到任何问题.非常感谢你的帮助！

解决方法

在Spark 1.5中完全没有,在Spark 1.6中只是部分(Logistic / LinearRegression)

https://issues.apache.org/jira/browse/SPARK-7685

这是JIRA跟踪所有子任务的伞

https://issues.apache.org/jira/browse/SPARK-9610

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!