scala – 在Spark RandomForestClassifier中预测类概率

发布时间：2020-12-16 09:09:42 所属栏目：安全来源：网络整理

导读：我使用ml.classification.RandomForestClassifier构建了随机森林模型.我试图从模型中提取预测概率,但我只看到预测类而不是概率.根据这个 issue link,问题得到了解决,它导致了 github pull request和 this.但是,它似乎在版本1.5中得到了解决.我正在使用提供Sp

我使用ml.classification.RandomForestClassifier构建了随机森林模型.我试图从模型中提取预测概率,但我只看到预测类而不是概率.根据这个 issue link,问题得到了解决,它导致了 github pull request和 this.但是,它似乎在版本1.5中得到了解决.我正在使用提供Spark 1.4.1的AWS EMR,并且基于不知道如何获得预测概率.如果有人知道该怎么做,请分享您的想法或解决方案.谢谢！

解决方法

我之前已经回答了类似的 question.

不幸的是,对于MLLIb,您无法获得分类模型的每个实例的概率,直到版本1.4.1.

有关这个确切主题的JIRA问题(SPARK-4362和SPARK-6885)正在进行中,因为我现在正在写答案.尽管如此,该问题似乎自2014年11月以来一直搁置

There is currently no way to get the posterior probability of a prediction with Naive Baye’s model during prediction. This should be made available along with the label.

以下是@ sean-owen在邮件列表上关于Naive Bayes分类算法的类似主题的注释：

This was recently discussed on this mailing list. You can’t get the probabilities out directly now,but you can hack a bit to get the internal data structures of NaiveBayesModel and compute it from there.

参考：source.

Spark 1.5.0已解决此问题.有关更多详细信息,请参阅JIRA issue.

关于AWS,您现在无法做到这一点.解决方案可能是您可以分叉emr-bootstrap-actions for spark并根据需要进行配置,然后您就可以使用引导步骤在AWS上安装Spark.

然而,这似乎有点复杂.

有些事情你可能需要考虑：

>更新spark / config.file以安装spark-1.5.就像是：

+3  1.5.0   python  s3://support.elasticmapreduce/spark/install-spark-script.py s3://path.to.your.bucket.spark.installation/spark/1.5.0/spark-1.5.0.tgz

>上面的这个文件列表必须是您目前拥有的指定s3存储桶中正确构建的spark.
>为了建立你的火花,我建议你在例子section about building-spark-for-emr以及official documentation中阅读它.这应该是关于它！ (我希望我没有忘记任何事情)

编辑：Amazon EMR版本4.1.0提供Apache Spark(1.5.0)的升级版本.您可以查看here了解更多详情.

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!