中文字幕精品亚洲无线码二区,国产黄a三级三级三级看三级,亚洲七七久久桃花影院,丰满少妇被猛烈进入,国产小视频在线观看网站

吳恩達深度學(xue)習課程(cheng)二: 改善深層神經網絡 第一(yi)周:深度學(xue)習的實(shi)踐(jian)(二)L2正則(ze)化

此分類用于記錄吳恩達深度學習課程的學習筆記。
課程相(xiang)關信息鏈接如下:

  1. 原課程視頻鏈接:
  2. github課程資料,含課件與筆記:
  3. 課程配套練習(中英)與答案:

本篇為第二(er)課第一周的內容(rong),和(he)的內容(rong)。


本周(zhou)為第(di)二課(ke)的第(di)一(yi)周(zhou)內容,就像課(ke)題名稱一(yi)樣,本周(zhou)更偏向于深度學習實踐(jian)中出現的問題和概(gai)念(nian),在(zai)有了第(di)一(yi)課(ke)的機器學習和數學基礎后,可以(yi)說,在(zai)理解上(shang)對本周(zhou)的內容不會存在(zai)什么難度。

當然,我也會對一些新出現的概念補充一些基礎內容來幫助理解,在有之前基礎的情況下,按部就班即可對本周內容有較好的掌握。
本篇以及下篇的核心概念只有一個:正則化

1.正則化的出現原因

我們在上一篇里提到了模型的過擬合問題,即在訓練集上表現很好,但在驗證集或測試集上表現很差。就像一個非常復雜的神經網絡,完美記住了訓練數據的所有點(包括噪聲),反而會對新數據泛化能力極差。
實際上,這是因為訓練集的樣本不夠充分,用于訓練的樣本不能比較全面地反應出正確的擬合規律,于是在(zai)出現(xian)新樣本的驗證集或測試(shi)集上表現(xian)較差。

依舊以貓狗分類舉例:假設我們的訓練集的貓全部都是白貓,那么我們訓練擬合到的模型就會認為所有的貓都是白色的,其(qi)他顏色的(de)都不(bu)是貓(mao)(mao),從而錯(cuo)判測試集里的(de)黑貓(mao)(mao),橘貓(mao)(mao)等。

因此,要解決過擬合問題,從最根本的思路出發得到的措施就是增加數據量,讓訓練集更全面,更具有泛化性。
但很多時候數據并不是那么容易獲得。在一些高精尖領域,獲取更多數據所需的成本非常大。
這時,前沿的人們就會思考,如何在不增加數據的情況下,盡可能地增加模型泛化性,緩解過擬合問題?
這就是(shi)正則化出現的背景。

2.什么是正則化?

依舊先擺一個定義:

正則化(Regularization)是機器學習和統計學中用于防止模型過擬合、提高泛化能力的一種技術。其核心思想是在模型的損失函數中引入一個額外的懲罰項,以限制模(mo)型的(de)(de)復雜度,從而避(bi)免模(mo)型對訓練(lian)數據“過(guo)度學(xue)習”而失去對新數據的(de)(de)預測能力。

簡單來說,正則化通過在訓練過程中“懲罰”過大的模型參數(如權重),促使模型變得更簡單、更平滑,從而提升其在未知數據上的表現。
只看概念還是有些模糊,本周我們展開介紹一下課程中提到的兩個常見的正則化:
L2正則化 和 dropout正則化

這里要提前說明的是:還是那句話,優化的本質都是數學,因此對于兩種正則化都少不了公式的推導,這可能帶來一定程度上的理解難度。
如果你只想知道這兩種正則化的大致運行原理和優劣,我會在之后的介紹最后附上一個“人話版”的總結來較直觀的說明這部分內容。
雖然(ran)在實際應用中我們(men)可以通過調包來直接使(shi)用正(zheng)則化(hua),但能(neng)夠(gou)較為清晰地了解(jie)基本原理(li),一定會對調優的過程(cheng)有所幫(bang)助。

3. L2 正則化

3.1數學原理

L2正(zheng)則化(hua)從(cong)代價(jia)函數的(de)角度(du)出發,設模型的(de)代價(jia)函數為:

\[J(w, b) = \frac{1}{m}\sum_{i=1}^m L(\hat{y}^{(i)}, y^{(i)}) \]

其中 \(L\) 是單個樣本的損失。
在代價函數的基礎上,L2 正則化的核心思想是——在這個損失函數中增加一個與權重有關的懲罰項,使得權重(zhong)參數(shu)不(bu)至(zhi)于(yu)太大。于(yu)是新的損失函數(shu)變為(wei):

\[J_{L2}(w, b) = \frac{1}{m}\sum_{i=1}^m L(\hat{y}^{(i)}, y^{(i)}) + \frac{\lambda}{2m}\sum_{l=1}^L |W^{[l]}|_F^2 \]

其中:

  • \(|W^{[l]}|_F^2\) 表示第 \(l\) 層權重矩陣所有元素的平方和(Frobenius 范數的平方);
  • \(\lambda\) 是正則化系數(Regularization parameter),用于控制懲罰項的強度;
  • \(m\) 是樣本數量,用來保持尺度一致。

我(wo)們來(lai)展開介紹一下懲罰(fa)項里涉及(ji)的(de)一些新概念和理(li)解(jie)中可能(neng)出現的(de)問題:

(1)什么叫Frobenius 范數?

不要被這個看起來高大上的名字嚇到,來看定義:
Frobenius 范數是一種用于度量矩陣大小的“平方長度”,定義如下:

\[|W^{[l]}|_F^2 = \sum_{i}\sum_{j}(W_{ij}^{[l]})^2 \]

翻譯一下,它就是矩陣中所有元素平方后求和的結果,也叫是矩陣的“歐幾里得長度平方”。
理解上來說,如果一個矩陣 \(W^{[l]}\) 被看作是一個“向量”,Frobenius 范數就相當于這個向量離原點的距離。
因(yin)此,Frobenius 范(fan)數(shu)越(yue)(yue)大,說明整個(ge)權(quan)重矩陣(zhen)的數(shu)值越(yue)(yue)大,也就意味著(zhu)模(mo)型越(yue)(yue)復雜、越(yue)(yue)“激進”,就越(yue)(yue)可能出現過(guo)擬(ni)合(he)的情況。

(2)懲罰項的存在是如何緩解過擬合的?

在反向傳播時,我們對\(W^{l}\)求偏(pian)導再代入權重(zhong)更新(xin)公(gong)式(shi),即可(ke)得到L2 正則(ze)化對權重(zhong)的更新(xin)公(gong)式(shi):

\[W^{[l]} := W^{[l]} - \alpha \left( dW^{[l]} + \frac{\lambda}{m}W^{[l]} \right) \]

可以看到,和普通的梯度下降相比,這里多了一個“\((+\frac{\lambda}{m}W^{[l]})\)” 項。
這一項會讓權重在每次更新時略微“收縮”,就像一股向 0 拉回的力,這種收縮效果也常被稱為權重衰減(weight decay)

這(zhe)樣做(zuo)帶來兩個直(zhi)接的(de)效果:

  1. 防止權重過大。 當模型試圖極端地記住訓練樣本(尤其是噪聲點)時,相關權重往往會迅速增大,而這股“向 0 的力”會將其拉回。
  2. 讓模型更平滑。 權重較小時,模型的決策邊界變化更平緩,不會為了一些孤立樣本而“硬拐彎”,因此對新數據的適應性更好。

(3)正則化系數 \(\lambda\) 的設置和作用?

通過上面的損失計算公式和權重更新公式,我們知道:
\(\lambda\) 決定了懲罰項在總損失中的權重占比,同時也調節著參數更新
我們來看具體的幾種情況:

  • \(\lambda\) 很小時,懲罰項幾乎不起作用,模型仍可能過擬合;
  • \(\lambda\) 適中時,懲罰項會迫使模型收縮權重,減少復雜度,提高泛化性;
  • \(\lambda\) 太大時,懲罰項主導損失函數,權重被強制壓得很小,模型將難以學習到有效特征,從而出現欠擬合。

打個比方:\(\lambda\) 就像是模型的平衡力度旋鈕
旋鈕擰得太小,模型胡亂記憶;
旋鈕擰得太大,模型束手束腳。
只(zhi)有調到合適的位置(zhi),模型(xing)才能既學習規律,又(you)不會死(si)記數據。

總(zong)的來說(shuo),L2 正則化讓模(mo)型(xing)變得更“克制”,不再依賴個別特征的極端取值,而是(shi)傾向于綜合多種信(xin)息。

3.2 “人話版總結”

L2 正則化可以理解為:給權重系上“橡皮筋”,當它們離 0 太遠時,橡皮筋就會拉回來,讓模型別太激動,別亂記噪聲。

項目 說明
核心思想 在損失函數中加入與權重平方相關的懲罰項,使權重保持較小,防止模型過度復雜。
優點 有效防止過擬合;讓模型更平滑、更穩健; 不影響訓練方向,只讓權重更“克制”。
缺點 懲罰過強(\(\lambda\) 太大)會導致欠擬合; 對高維噪聲數據仍有限制。
形象比喻 L2 正則化 = 給權重加橡皮筋 擰緊了,模型學不動;放松了,模型亂記。只有適度,效果最佳。

下篇會用相同格式介紹dropout正則化和一些其他幫助緩解過擬合的方式。
同時,也可以思考一個問題,應用正則化和直接調節學習率有什么不同呢?
我們完成正(zheng)則化部分再來解答這個問題。

posted @ 2025-10-29 14:01  哥布林學者  閱讀(128)  評論(0)    收藏  舉報