加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

SSAS 挖掘准确性图表

发布时间:2020-12-14 04:55:12 所属栏目:大数据 来源:网络整理
导读:【提升图】 当我们创建数据挖掘模型后,得了解该模型的准确性。默认情况下,在创建挖掘结构时默认使用30%的数据做测试,使用70%的数据将用于模型定型。建模后,可以打开 “挖掘准确性图表” 进行验证,那这些图怎么看呢?官网解释的太官方了、太啰嗦了,看了

【提升图】

当我们创建数据挖掘模型后,得了解该模型的准确性。默认情况下,在创建挖掘结构时默认使用30%的数据做测试,使用70%的数据将用于模型定型。建模后,可以打开“挖掘准确性图表”进行验证,那这些图怎么看呢?官网解释的太官方了、太啰嗦了,看了好久才明白。理解后原来如此简单!



模型建好了,如果有多个模型,则勾选需要查看的模型。这里预测的属性是贷款用户的“回款情况”,只有 true 和 false 两个值。看提升图,首先选择挖掘模型,再选择预测值 true(表示还款,应选择有意义的值)。

?

接下来选择图表数据集:

使用挖掘模型测试事例:挖掘结构测试集中满足筛选条件的事例

使用挖掘结构测试事例:创建挖掘结构时定义的测试数据集,默认30%(下图)

指定其他数据集:可以自定义筛选的数据集

?

上图为创建挖掘结构时选择的测试数据百分比。这里选择“使用挖掘结构测试事例”。接下来点击“提升图”选项,打开提升图(此图为带有预测目标的提示图


X轴(总体%):当前用于比较预测的预测数据集百分比。如果当前测试有10000条记录,50%则表示随机使用5000行记录。100%则表示使用全部10000条记录。


?Y轴(目标总体[True]%):表示预测值的百分比。即目标true 发生的概率。


?灰色线条(垂直的):可以任意放置,便于观察各线条的数值。


?蓝色线条:随机推测模型,永远对角线。如选择总体 100%数据集时,数据集内回款情况为 ture 的肯定全部都包括在内。如果选择50%的数据,那么回款为ture的数量,随机概率也有50%。


?绿色线条:理想模型,从图可以看出(灰色线条),总体数据中约38%回款情况是为true的。如果总体是10000条数据,那么应该有3800条数据“回款情况=true”的记录(也可以用sql统计看看)。在理想情况下,如果我们用模型预测找出3800条记录,而这3800条记录刚好完好“回款情况=true”,那就太理想了,其他记录可以不管了,只要这3800条有用的就行了。然而,理想情况几乎很难达到!


?红色线条:预测发生的概率。该线条肯定是在随机线条与理想线条之间,因为我们的预测肯定是大于随机选择的,但永远无法达到理想情况。如上图,当我们选择38%的总体数据时,模型预测出这数据集中约有53%是“回款情况=true”的记录。如总体10000条数据,通过模型我选择出3800条记录,这记录中“回款情况=true”的应该有2014(3800*0.53) 条记录。看这概率是不是很大了!如果选择50%的数据呢?(把灰色线条移到总体50%看看~~)

?

当灰色线条移到某个地方的时候,还可以看到挖掘图例中的数值情况:


分数:分数越高,模型越好。可以通过分数不断优化模型,或者用来比较各个模型优劣。


目标总体:y轴中的数值


预测概率:表示包含“可能发生”事例中的客户所需的阈值。对于每个事例,模型估计每个预测的准确性并存储该值,您可以使用该值筛选或锁定目标客户。若要找到模型识别可能回款的客户,应使用查询检索“预测概率”至少为42.08% 的事例。这话什么意思呢?在提升图中,可以将灰色线条往左或右放置,就会发现,越往右,预测概率越小,越往左,预测概率越大,所以我们应该往左取总体数据来预测。往右的话,总体数据越来越大,预测就没有意义了。

?

提示图限制:要求预测属性为离散型

?

【分类矩阵】

分类矩阵” 通过确定预测值是否与实际值匹配,将模型中的所有事例分为不同的类别。 然后会对每个类别中的所有事例进行计数,并在矩阵中显示总计。 分类矩阵是评估统计模型的标准工具,有时被称为“混淆矩阵” 。

?分类矩阵是评估预测结果的重要工具,因为它使得结果更易于理解并说明错误预测的影响。通过查看此矩阵中每个单元的金额和百分比,可以快速查看模型做出准确预测的频率。

?点击“分类矩阵”选项,可以看到“回款情况”的实际预测情况:

当前预测的回款情况,要么还款,要么未还款,所以该属性只有两个值。因此,第一列为预测列,预测列有两个值(true和false)。第二和第三列为实际值,因为只有 true和false ,所以只有两列实际值。


先看第一行,预测值等于false 时,实际为false(第二列)的数量为 16544,即预测值等于实际值的有 16544 个事例,为“真”的次数。第一行预测值为 false,但是实际上(第三列)却出现了true的情况,true 的事例有7357个,为“假”的数目,说明预测错了。要是7357为0的话那就表示非常准确了。同理,看看第二行预测为 True 的情况看看。

?

因此:

预测

False(实际)

True(实际)

False

真负(True Negative)= 16544

假负(False Negative)= 7357

True

假正(False Positive)= 3929

真正(True Positive)=4854

?



?


总体预测准确的事例数 = 16544+ 4854 = 21398 个

总体预测错误的事例数 = 7357 +3929 = 11286 个

分类矩阵限制:分类矩阵仅可与离散可预测属性结合使用

?

?

【交叉验证】

交叉验证是分析中的一个标准工具,同时也是一项重要的功能,有助于开发和优化数据挖掘模型。在创建了一个挖掘结构及其关联的挖掘模型之后,可使用交叉验证来确定该模型的有效性。交叉验证具有以下应用:

l? 验证特定挖掘模型的可靠性。

l? 通过一条语句评估多个模型。

l? 构建多个模型,然后根据统计标识最好的模型。

?

创建挖掘机构时,默认使用30%的数据作为测试数据,剩下70%的数据将作为定型数据。而交叉验证将用定型数据集中所有数据(即挖掘结构中 70% 的数据)。交叉验证报告显示每个分区中使用的事例总数。

?

?


折叠计数:表示将在原始数据集中创建的折叠数或分区数。最小值是 2,这表示数据集的一半用于测试,另一半用于定型。如果使用的是会话挖掘结构,则折叠数的最大值为 10。如果挖掘结构存储在 Analysis Services 的实例中,则最大值为 256。如果将“折叠计数”设置为 1,则将在不分区的情况下使用定型集。

?

下图表示3个折叠。将数据集分成3份,轮流将其中2份做训练1份做验证,3次的结果的均值作为对算法精度的估计,得到的估值就是交叉验证的目的。

最大事例数:指定将用于交叉验证的最大事例数。 任一特定折叠中的事例数等于“最大事例数”值除以“折叠计数”值。如果使用 0,则源数据中的所有事例(70%的定型数据)都用于交叉验证。如果数字大于模型定型集中的事例计数,将使用所有的事例。


目标属性:预测的属性,如预测多个属性则可以选择其中一个,只能选择一个可预测列。


目标状态:键入希望建模的可预测属性的值。如1 或0 、true 或 false 等。默认值为 null,表示将测试所有状态。


目标阈值:指定一个 0 到 1 之间的值,该值指示预测概率,用于控制度量预测准确性的标准。高于此概率的预测状态被计为正确。接近1表示预测可信度越高,否则反之。默认nul,则将可能性最大的预测计为正确。状态阈值的设置将影响模型准确性的度量值。

?

分区索引:折叠计数设置的分区数,按顺序编号。

分区大小:最大事例数在各分区的分配情况。

测试:测试类型。分类(Classification)、可能性(Likelihood)

度量值:测量值。真正(True Positive)、假正(False Positive)、真负(True Negative)、假负(False Negative)、对数评分(Log Score)、提升(Lift)、均方根误差(Root Mean Square Error)


平均:特定度量值的分区值的平均值。

标准偏差:一个模型的所有分区中相对于特定度量值平均值的偏差的平均值。标准偏差越小,这些值偏离平均值就越少,反之亦然。对于交叉验证,此分数值越高,则意味着折叠之间的差异越大。


参考:测试和验证(数据挖掘)

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读