回想一下使用Bagging學(xué)習(xí),我們定義 k 個(gè)不同的模型,從訓(xùn)練集有替換采樣構(gòu)造 k 個(gè)不同的數(shù)據(jù)集,然后在訓(xùn)練集上訓(xùn)練模型 i。
Dropout的目標(biāo)是在指數(shù)級(jí)數(shù)量的神經(jīng)網(wǎng)絡(luò)上近似這個(gè)過程。Dropout訓(xùn)練與Bagging訓(xùn)練不太一樣。在Bagging的情況下,所有模型是獨(dú)立的。
在Dropout的情況下,模型是共享參數(shù)的,其中每個(gè)模型繼承的父神經(jīng)網(wǎng)絡(luò)參數(shù)的不同子集。參數(shù)共享使得在有限可用的內(nèi)存下代表指數(shù)數(shù)量的模型變得可能。在Bagging的情況下,每一個(gè)模型在其相應(yīng)訓(xùn)練集上訓(xùn)練到收斂。
在Dropout的情況下,通常大部分模型都沒有顯式地被訓(xùn)練,通常該模型很大,以致到宇宙毀滅都不能采樣所有可能的子網(wǎng)絡(luò)。取而代之的是,可能的子網(wǎng)絡(luò)的一小部分訓(xùn)練單個(gè)步驟,參數(shù)共享導(dǎo)致剩余的子網(wǎng)絡(luò)能有好的參數(shù)設(shè)定。