scala – 在Spark RandomForestClassifier中预测类概率
我使用ml.classification.RandomForestClassifier构建了随机森林模型.我试图从模型中提取预测概率,但我只看到预测类而不是概率.根据这个
issue link,问题得到了解决,它导致了
github pull request和
this.但是,它似乎在版本1.5中得到了解决.我正在使用提供Spark 1.4.1的AWS EMR,并且基于不知道如何获得预测概率.如果有人知道该怎么做,请分享您的想法或解决方案.谢谢!
解决方法
我之前已经回答了类似的
question.
不幸的是,对于MLLIb,您无法获得分类模型的每个实例的概率,直到版本1.4.1. 有关这个确切主题的JIRA问题(SPARK-4362和SPARK-6885)正在进行中,因为我现在正在写答案.尽管如此,该问题似乎自2014年11月以来一直搁置
以下是@ sean-owen在邮件列表上关于Naive Bayes分类算法的类似主题的注释:
参考:source. Spark 1.5.0已解决此问题.有关更多详细信息,请参阅JIRA issue. 关于AWS,您现在无法做到这一点.解决方案可能是您可以分叉emr-bootstrap-actions for spark并根据需要进行配置,然后您就可以使用引导步骤在AWS上安装Spark. 然而,这似乎有点复杂. 有些事情你可能需要考虑: >更新spark / config.file以安装spark-1.5.就像是 : +3 1.5.0 python s3://support.elasticmapreduce/spark/install-spark-script.py s3://path.to.your.bucket.spark.installation/spark/1.5.0/spark-1.5.0.tgz >上面的这个文件列表必须是您目前拥有的指定s3存储桶中正确构建的spark. 编辑:Amazon EMR版本4.1.0提供Apache Spark(1.5.0)的升级版本.您可以查看here了解更多详情. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |