模型融合---为什么说bagging是减少variance，而boosting是减少bi

发布时间：2020-12-16 07:19:54 所属栏目：百科来源：网络整理

导读：1.bagging减少variance Bagging对样本重采样，对每一重采样得到的子样本集训练一个模型，最后取平均。由于子样本集的相似性以及使用的是同种模型，因此各模型有近似相等的bias和variance（事实上，各模型的分布也近似相同，但不独立），所以bagging后的bias

1.bagging减少variance

Bagging对样本重采样，对每一重采样得到的子样本集训练一个模型，最后取平均。由于子样本集的相似性以及使用的是同种模型，因此各模型有近似相等的bias和variance（事实上，各模型的分布也近似相同，但不独立），所以bagging后的bias和单个子模型的接近，一般来说不能显著降低bias。

若各模型独立，则

$var(sum_{i=1}^{n}{X_i}/n)=var({X_i})/n$

若各模型完全相等，则

$var(sum_{i=1}^{n}{X_i}/n)=var({X_i})$

此时不会降低variance。bagging方法得到的各子模型是有一定相关性的，属于上面两个极端状况的中间态，因此可以一定程度降低variance。为了进一步降低variance，Random forest通过随机选取变量子集做拟合的方式de-correlated了各子模型（树），使得variance进一步降低。

2.boosting减少bias

boosting从优化角度来看，是用forward-stagewise这种贪心法去最小化损失函数。

$L(y,sum_{i=1}^{n}{a_if_{i}(x)})$

例如，常见的AdaBoost即等价于用这种方法最小化exponential loss：

L(y,f(x))=exp(-yf(x))

。

所谓forward-stagewise，就是在迭代的第n步，求解新的子模型f(x)及步长a（或者叫组合系数），来最小化

$L(y,f_{n-1}(x)+af(x))$

，这里

$f_{n-1}(x)$

是前n-1步得到的子模型的和。因此boosting是在sequential地最小化损失函数，其bias自然逐步下降。但由于是采取这种sequential、adaptive的策略，各子模型之间是强相关的，于是子模型之和并不能显著降低variance。所以说boosting主要还是靠降低bias来提升预测精度。

参考文献：

【1】知乎大佬回答
【2】Bagging与方差

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!