SSAS 挖掘准确性图表

发布时间：2020-12-14 04:55:12 所属栏目：大数据来源：网络整理

导读：【提升图】当我们创建数据挖掘模型后，得了解该模型的准确性。默认情况下，在创建挖掘结构时默认使用30%的数据做测试，使用70%的数据将用于模型定型。建模后，可以打开 “挖掘准确性图表” 进行验证，那这些图怎么看呢？官网解释的太官方了、太啰嗦了，看了

【提升图】

当我们创建数据挖掘模型后，得了解该模型的准确性。默认情况下，在创建挖掘结构时默认使用30%的数据做测试，使用70%的数据将用于模型定型。建模后，可以打开“挖掘准确性图表”进行验证，那这些图怎么看呢？官网解释的太官方了、太啰嗦了，看了好久才明白。理解后原来如此简单！

模型建好了，如果有多个模型，则勾选需要查看的模型。这里预测的属性是贷款用户的“回款情况”，只有 true 和 false 两个值。看提升图，首先选择挖掘模型，再选择预测值 true（表示还款，应选择有意义的值）。

接下来选择图表数据集：

使用挖掘模型测试事例：挖掘结构测试集中满足筛选条件的事例

使用挖掘结构测试事例：创建挖掘结构时定义的测试数据集，默认30%（下图）

指定其他数据集：可以自定义筛选的数据集

上图为创建挖掘结构时选择的测试数据百分比。这里选择“使用挖掘结构测试事例”。接下来点击“提升图”选项，打开提升图（此图为带有预测目标的提示图）

X轴（总体%）：当前用于比较预测的预测数据集百分比。如果当前测试有10000条记录，50%则表示随机使用5000行记录。100%则表示使用全部10000条记录。

?Y轴（目标总体[True]%）：表示预测值的百分比。即目标true 发生的概率。

?灰色线条（垂直的）：可以任意放置，便于观察各线条的数值。

?蓝色线条：随机推测模型，永远对角线。如选择总体 100%数据集时，数据集内回款情况为 ture 的肯定全部都包括在内。如果选择50%的数据，那么回款为ture的数量，随机概率也有50%。

?绿色线条：理想模型，从图可以看出（灰色线条），总体数据中约38%回款情况是为true的。如果总体是10000条数据，那么应该有3800条数据“回款情况=true”的记录（也可以用sql统计看看）。在理想情况下，如果我们用模型预测找出3800条记录，而这3800条记录刚好完好“回款情况=true”，那就太理想了，其他记录可以不管了，只要这3800条有用的就行了。然而，理想情况几乎很难达到！

?红色线条：预测发生的概率。该线条肯定是在随机线条与理想线条之间，因为我们的预测肯定是大于随机选择的，但永远无法达到理想情况。如上图，当我们选择38%的总体数据时，模型预测出这数据集中约有53%是“回款情况=true”的记录。如总体10000条数据，通过模型我选择出3800条记录，这记录中“回款情况=true”的应该有2014(3800*0.53) 条记录。看这概率是不是很大了！如果选择50%的数据呢？（把灰色线条移到总体50%看看~~）

当灰色线条移到某个地方的时候，还可以看到挖掘图例中的数值情况：

分数：分数越高，模型越好。可以通过分数不断优化模型，或者用来比较各个模型优劣。

目标总体：y轴中的数值

预测概率：表示包含“可能发生”事例中的客户所需的阈值。对于每个事例，模型估计每个预测的准确性并存储该值，您可以使用该值筛选或锁定目标客户。若要找到模型识别可能回款的客户，应使用查询检索“预测概率”至少为42.08% 的事例。这话什么意思呢？在提升图中，可以将灰色线条往左或右放置，就会发现，越往右，预测概率越小，越往左，预测概率越大，所以我们应该往左取总体数据来预测。往右的话，总体数据越来越大，预测就没有意义了。

提示图限制：要求预测属性为离散型

【分类矩阵】

“分类矩阵” 通过确定预测值是否与实际值匹配，将模型中的所有事例分为不同的类别。然后会对每个类别中的所有事例进行计数，并在矩阵中显示总计。分类矩阵是评估统计模型的标准工具，有时被称为“混淆矩阵” 。

?分类矩阵是评估预测结果的重要工具，因为它使得结果更易于理解并说明错误预测的影响。通过查看此矩阵中每个单元的金额和百分比，可以快速查看模型做出准确预测的频率。

?点击“分类矩阵”选项，可以看到“回款情况”的实际预测情况：

当前预测的回款情况，要么还款，要么未还款，所以该属性只有两个值。因此，第一列为预测列，预测列有两个值（true和false）。第二和第三列为实际值，因为只有 true和false ，所以只有两列实际值。

先看第一行，预测值等于false 时，实际为false（第二列）的数量为 16544，即预测值等于实际值的有 16544 个事例，为“真”的次数。第一行预测值为 false，但是实际上（第三列）却出现了true的情况，true 的事例有7357个，为“假”的数目，说明预测错了。要是7357为0的话那就表示非常准确了。同理，看看第二行预测为 True 的情况看看。

因此：

预测	False（实际）	True（实际）
False	真负（True Negative）= 16544	假负（False Negative）= 7357
True	假正（False Positive）= 3929	真正（True Positive）=4854

总体预测准确的事例数 = 16544+ 4854 = 21398 个

总体预测错误的事例数 = 7357 +3929 = 11286 个

分类矩阵限制：分类矩阵仅可与离散可预测属性结合使用

【交叉验证】

交叉验证是分析中的一个标准工具，同时也是一项重要的功能，有助于开发和优化数据挖掘模型。在创建了一个挖掘结构及其关联的挖掘模型之后，可使用交叉验证来确定该模型的有效性。交叉验证具有以下应用：

l? 验证特定挖掘模型的可靠性。

l? 通过一条语句评估多个模型。

l? 构建多个模型，然后根据统计标识最好的模型。

创建挖掘机构时，默认使用30%的数据作为测试数据，剩下70%的数据将作为定型数据。而交叉验证将用定型数据集中所有数据（即挖掘结构中 70% 的数据）。交叉验证报告显示每个分区中使用的事例总数。

折叠计数：表示将在原始数据集中创建的折叠数或分区数。最小值是 2，这表示数据集的一半用于测试，另一半用于定型。如果使用的是会话挖掘结构，则折叠数的最大值为 10。如果挖掘结构存储在 Analysis Services 的实例中，则最大值为 256。如果将“折叠计数”设置为 1，则将在不分区的情况下使用定型集。

下图表示3个折叠。将数据集分成3份，轮流将其中2份做训练1份做验证，3次的结果的均值作为对算法精度的估计，得到的估值就是交叉验证的目的。

最大事例数：指定将用于交叉验证的最大事例数。任一特定折叠中的事例数等于“最大事例数”值除以“折叠计数”值。如果使用 0，则源数据中的所有事例（70%的定型数据）都用于交叉验证。如果数字大于模型定型集中的事例计数，将使用所有的事例。

目标属性：预测的属性，如预测多个属性则可以选择其中一个，只能选择一个可预测列。

目标状态：键入希望建模的可预测属性的值。如1 或0 、true 或 false 等。默认值为 null，表示将测试所有状态。

目标阈值：指定一个 0 到 1 之间的值，该值指示预测概率，用于控制度量预测准确性的标准。高于此概率的预测状态被计为正确。接近1表示预测可信度越高，否则反之。默认nul，则将可能性最大的预测计为正确。状态阈值的设置将影响模型准确性的度量值。

分区索引：折叠计数设置的分区数，按顺序编号。

分区大小：最大事例数在各分区的分配情况。

测试：测试类型。分类（Classification）、可能性（Likelihood）

度量值：测量值。真正（True Positive）、假正（False Positive）、真负（True Negative）、假负（False Negative）、对数评分（Log Score）、提升（Lift）、均方根误差（Root Mean Square Error）

平均：特定度量值的分区值的平均值。

标准偏差：一个模型的所有分区中相对于特定度量值平均值的偏差的平均值。标准偏差越小，这些值偏离平均值就越少，反之亦然。对于交叉验证，此分数值越高，则意味着折叠之间的差异越大。

参考：测试和验证（数据挖掘）

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!