模型集成之stacking——个人小结 - 好文

写在最前：在做比赛的过程中接触到stacking方法，由于对stacking不熟悉，使用stacking时踩了不少坑，写下这篇博客，在巩固知识的同时也希望给想使用stacking方法的跟我一样的初学者一点小小的帮助。

一、stacking方法是什么

stacking是一种分层模型集成框架。以两层为例，第一层由多个基学习器组成，其输入为原始训练集，第二层的模型则是以第一层基学习器的输出作为训练集进行再训练，从而得到完整的stacking模型。

二、如何构造stacking模型
以两层stacking模型为例，要得到stacking模型，关键在于如何构造第二层的特征（下记为元特征，meta
feature），构造元特征的原则是尽可能的避免信息泄露，因此对原始训练集常常采用类似于K折交叉验证的划分方法。
以5折划分为例，我们将原始训练集分为5折，分别记为fold1、fold2、fold3、fold4和fold5。此时我们使用fold2-fold5的数据来训练基模型1，并对fold1进行预测，该预测值即作为基模型1对fold1生成的元特征；同样地，使用fold1、fold3-fold5的数据来训练基模型1，并对fold2进行预测，该预测值即作为基模型1对fold2生成的元特征；以此类推，得到基模型1对整个原始训练集生成的元特征。同样地，对其他基模型也采用相同的方法生成元特征，从而构成用于第二层模型（下记为元模型，meta
model）训练的完整元特征集。对于测试集，我们可以在每次基模型训练好时预测，再将预测值做均值处理；也可以将基模型拟合全部的训练集之后再对测试集进行预测。
需要注意的是，在生成第二层特征的时候，各个基模型要采用相同的Kfold，这样得到的元特征的每一折（对应于之前的K折划分）都将不会泄露进该折数据的目标值信息
，从而尽可能的降低过拟合的风险。虽然如此，实际上我们得到的元特征还是存在一定程度上的信息泄露，比如我们在预测第二折的时候，是利用了第一折的目标值信息用于训练基模型的，也就是说第一折的目标值信息杂糅在对第二折进行预测的基模型里。但是，实践中，这种程度的信息泄露所造成的过拟合程度很小。

三、如何对stacking模型调参

stacking模型调参包括对基模型和元模型进行调参。对于基模型，因为我们在生成元特征的时候要使用相同的K折划分，所以我们使用交叉验证+网格搜索来调参时最好使用与生成元特征相同的Kfold。对于元模型的调参，使用交叉验证+网格搜索来调参时，为了降低过拟合的风险，我们最好也使用与元特征生成时同样的Kfold。
综上，stacking方法从一开始就得确定一个Kfold，这个Kfold将伴随对基模型的调参、生成元特征以及对元模型的调参，贯穿整个stacking流程。当然，由于我们生成基模型时未使用全部数据，我们可以使用多个不同的Kfold来生成多个stacking模型然后进行加权，这样可以进一步提高算法的鲁棒性。
另外，基模型的选择需要考虑的是：基模型之间的相关性要尽量小，同时基模型之间的性能表现不能差距太大。

参考文献

1、A Kaggler's Guide to Model Stacking in Practice
<http://blog.kaggle.com/2016/12/27/a-kagglers-guide-to-model-stacking-in-practice/>

2、数据比赛大杀器----模型融合(stacking&blending)
<http://blog.csdn.net/u014356002/article/details/54376138>

3、为什么做stacking ensemble的时候需要固定k-fold？
<https://www.zhihu.com/question/61467937/answer/188191424>

热门工具换一换