数据处理
发布时间:2020-12-14 02:54:27 所属栏目:大数据 来源:网络整理
导读:1,提升分类准确率 1) 装袋: 书上给的例子是投票, 也就是 某个分类结果被越多的分类模型所认同(得出), 那么这个结果可以认为是正确的划分类。 具体是: 由不同的训练集得出不同的分类模型, 将未知数X 分类, 统计分类模型得出的结果,票数最高的为最后
1,提升分类准确率1) 装袋:书上给的例子是投票, 也就是 某个分类结果被越多的分类模型所认同(得出), 那么这个结果可以认为是正确的划分类。 具体是: 由不同的训练集得出不同的分类模型, 将未知数X 分类, 统计分类模型得出的结果,票数最高的为最后的划分类。即 多数表决 2)提升:总的思想是:? 1、给每个训练组赋予一个误分类的权值(表示分类难度?), 对于误分类率高的训练组进行多次训练(做难题所能获取的知识通常要比做简单题的还要多)。 2、对于不同分类模型,根据其错误率高低 分配一个权值,对于其表决结果乘上其权值再进行决策 3)提高类不平衡数据的分类准确率:在某些问题,由于我们感兴趣的主类(正类)的元组少于其他类(负类),比如被欺诈的人的个数确实要远低于正常的个数的。这个时候我们采用一下方法: 1、过抽样: 复制正类元组,直到与负类达到一定比例 2、欠抽样: 减少负类元组,直到与正类达到一定比例 3、阈值移动: 设置一个阈值t ?对于f(X) >= t 的元组视为正类的, 其他元组视为负类 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |