加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 服务器 > 安全 > 正文

scala – 可以在Spark MLlib随机森林培训中使用样本重量吗?

发布时间:2020-12-16 18:31:30 所属栏目:安全 来源:网络整理
导读:我使用Spark 1.5.0 MLlib Random Forest算法( scala代码)来做两类分类.由于我使用的数据集非常不平衡,因此大多数类以10%的采样率进行下采样.在Spark随机森林培训中是否可以使用采样权重(在这种情况下为10)?我没有在随机森林中看到trainClassifier()的输入
我使用Spark 1.5.0 MLlib Random Forest算法( scala代码)来做两类分类.由于我使用的数据集非常不平衡,因此大多数类以10%的采样率进行下采样.在Spark随机森林培训中是否可以使用采样权重(在这种情况下为10)?我没有在随机森林中看到trainClassifier()的输入参数中的权重.我也在stackoverflow中进行了搜索,但在这个主题上找不到任何问题.非常感谢你的帮助!

解决方法

在Spark 1.5中完全没有,在Spark 1.6中只是部分(Logistic / LinearRegression)

https://issues.apache.org/jira/browse/SPARK-7685

这是JIRA跟踪所有子任务的伞

https://issues.apache.org/jira/browse/SPARK-9610

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读