吳恩達深度學(xue)習課程(cheng)二：改善深層神經網絡第一(yi)周：深度學(xue)習的實(shi)踐(jian)（二）L2正則(ze)化

此分類用于記錄吳恩達深度學習課程的學習筆記。
課程相(xiang)關信息鏈接如下：

原課程視頻鏈接：
github課程資料，含課件與筆記:
課程配套練習（中英）與答案：

本篇為第二(er)課第一周的內容(rong)，和(he)的內容(rong)。

本周(zhou)為第(di)二課(ke)的第(di)一(yi)周(zhou)內容，就像課(ke)題名稱一(yi)樣，本周(zhou)更偏向于深度學習實踐(jian)中出現的問題和概(gai)念(nian)，在(zai)有了第(di)一(yi)課(ke)的機器學習和數學基礎后，可以(yi)說，在(zai)理解上(shang)對本周(zhou)的內容不會存在(zai)什么難度。

當然，我也會對一些新出現的概念補充一些基礎內容來幫助理解，在有之前基礎的情況下，按部就班即可對本周內容有較好的掌握。
本篇以及下篇的核心概念只有一個：正則化

1.正則化的出現原因

我們在上一篇里提到了模型的過擬合問題，即在訓練集上表現很好，但在驗證集或測試集上表現很差。就像一個非常復雜的神經網絡，完美記住了訓練數據的所有點（包括噪聲），反而會對新數據泛化能力極差。
實際上，這是因為訓練集的樣本不夠充分，用于訓練的樣本不能比較全面地反應出正確的擬合規律，于是在(zai)出現(xian)新樣本的驗證集或測試(shi)集上表現(xian)較差。

依舊以貓狗分類舉例：假設我們的訓練集的貓全部都是白貓，那么我們訓練擬合到的模型就會認為所有的貓都是白色的，其(qi)他顏色的(de)都不(bu)是貓(mao)(mao)，從而錯(cuo)判測試集里的(de)黑貓(mao)(mao)，橘貓(mao)(mao)等。

因此，要解決過擬合問題，從最根本的思路出發得到的措施就是增加數據量，讓訓練集更全面，更具有泛化性。
但很多時候數據并不是那么容易獲得。在一些高精尖領域，獲取更多數據所需的成本非常大。
這時，前沿的人們就會思考，如何在不增加數據的情況下，盡可能地增加模型泛化性，緩解過擬合問題？
這就是(shi)正則化出現的背景。

2.什么是正則化？

依舊先擺一個定義：

正則化（Regularization）是機器學習和統計學中用于防止模型過擬合、提高泛化能力的一種技術。其核心思想是在模型的損失函數中引入一個額外的懲罰項，以限制模(mo)型的(de)(de)復雜度，從而避(bi)免模(mo)型對訓練(lian)數據“過(guo)度學(xue)習”而失去對新數據的(de)(de)預測能力。

簡單來說，正則化通過在訓練過程中“懲罰”過大的模型參數（如權重），促使模型變得更簡單、更平滑，從而提升其在未知數據上的表現。
只看概念還是有些模糊，本周我們展開介紹一下課程中提到的兩個常見的正則化：
L2正則化和 dropout正則化

這里要提前說明的是：還是那句話，優化的本質都是數學，因此對于兩種正則化都少不了公式的推導，這可能帶來一定程度上的理解難度。
如果你只想知道這兩種正則化的大致運行原理和優劣，我會在之后的介紹最后附上一個“人話版”的總結來較直觀的說明這部分內容。
雖然(ran)在實際應用中我們(men)可以通過調包來直接使(shi)用正(zheng)則化(hua)，但能(neng)夠(gou)較為清晰地了解(jie)基本原理(li)，一定會對調優的過程(cheng)有所幫(bang)助。

3. L2 正則化

3.1數學原理

L2正(zheng)則化(hua)從(cong)代價(jia)函數的(de)角度(du)出發，設模型的(de)代價(jia)函數為：

\[J(w, b) = \frac{1}{m}\sum_{i=1}^m L(\hat{y}^{(i)}, y^{(i)}) \]

其中 \(L\) 是單個樣本的損失。
在代價函數的基礎上，L2 正則化的核心思想是——在這個損失函數中增加一個與權重有關的懲罰項，使得權重(zhong)參數(shu)不(bu)至(zhi)于(yu)太大。于(yu)是新的損失函數(shu)變為(wei)：

\[J_{L2}(w, b) = \frac{1}{m}\sum_{i=1}^m L(\hat{y}^{(i)}, y^{(i)}) + \frac{\lambda}{2m}\sum_{l=1}^L |W^{[l]}|_F^2 \]

其中：

\(|W^{[l]}|_F^2\) 表示第 \(l\) 層權重矩陣所有元素的平方和（Frobenius 范數的平方）；
\(\lambda\) 是正則化系數（Regularization parameter），用于控制懲罰項的強度；
\(m\) 是樣本數量，用來保持尺度一致。

我(wo)們來(lai)展開介紹一下懲罰(fa)項里涉及(ji)的(de)一些新概念和理(li)解(jie)中可能(neng)出現的(de)問題：

（1）什么叫Frobenius 范數？

不要被這個看起來高大上的名字嚇到，來看定義：
Frobenius 范數是一種用于度量矩陣大小的“平方長度”，定義如下：

\[|W^{[l]}|_F^2 = \sum_{i}\sum_{j}(W_{ij}^{[l]})^2 \]

翻譯一下，它就是矩陣中所有元素平方后求和的結果，也叫是矩陣的“歐幾里得長度平方”。
理解上來說，如果一個矩陣 \(W^{[l]}\) 被看作是一個“向量”，Frobenius 范數就相當于這個向量離原點的距離。
因(yin)此，Frobenius 范(fan)數(shu)越(yue)(yue)大，說明整個(ge)權(quan)重矩陣(zhen)的數(shu)值越(yue)(yue)大，也就意味著(zhu)模(mo)型越(yue)(yue)復雜、越(yue)(yue)“激進”，就越(yue)(yue)可能出現過(guo)擬(ni)合(he)的情況。

（2）懲罰項的存在是如何緩解過擬合的？

在反向傳播時，我們對\(W^{l}\)求偏(pian)導再代入權重(zhong)更新(xin)公(gong)式(shi)，即可(ke)得到L2 正則(ze)化對權重(zhong)的更新(xin)公(gong)式(shi)：

\[W^{[l]} := W^{[l]} - \alpha \left( dW^{[l]} + \frac{\lambda}{m}W^{[l]} \right) \]

可以看到，和普通的梯度下降相比，這里多了一個“\((+\frac{\lambda}{m}W^{[l]})\)” 項。
這一項會讓權重在每次更新時略微“收縮”，就像一股向 0 拉回的力，這種收縮效果也常被稱為權重衰減（weight decay）。

這(zhe)樣做(zuo)帶來兩個直(zhi)接的(de)效果：

防止權重過大。 當模型試圖極端地記住訓練樣本（尤其是噪聲點）時，相關權重往往會迅速增大，而這股“向 0 的力”會將其拉回。
讓模型更平滑。 權重較小時，模型的決策邊界變化更平緩，不會為了一些孤立樣本而“硬拐彎”，因此對新數據的適應性更好。

（3）正則化系數 \(\lambda\) 的設置和作用？

通過上面的損失計算公式和權重更新公式，我們知道：
\(\lambda\) 決定了懲罰項在總損失中的權重占比，同時也調節著參數更新。
我們來看具體的幾種情況：

當 \(\lambda\) 很小時，懲罰項幾乎不起作用，模型仍可能過擬合；
當 \(\lambda\) 適中時，懲罰項會迫使模型收縮權重，減少復雜度，提高泛化性；
當 \(\lambda\) 太大時，懲罰項主導損失函數，權重被強制壓得很小，模型將難以學習到有效特征，從而出現欠擬合。

打個比方：\(\lambda\) 就像是模型的平衡力度旋鈕。
旋鈕擰得太小，模型胡亂記憶；
旋鈕擰得太大，模型束手束腳。
只(zhi)有調到合適的位置(zhi)，模型(xing)才能既學習規律，又(you)不會死(si)記數據。

總(zong)的來說(shuo)，L2 正則化讓模(mo)型(xing)變得更“克制”，不再依賴個別特征的極端取值，而是(shi)傾向于綜合多種信(xin)息。

3.2 “人話版總結”

L2 正則化可以理解為：給權重系上“橡皮筋”，當它們離 0 太遠時，橡皮筋就會拉回來，讓模型別太激動，別亂記噪聲。

項目	說明
核心思想	在損失函數中加入與權重平方相關的懲罰項，使權重保持較小，防止模型過度復雜。
優點	有效防止過擬合；讓模型更平滑、更穩健；不影響訓練方向，只讓權重更“克制”。
缺點	懲罰過強（\(\lambda\) 太大）會導致欠擬合；對高維噪聲數據仍有限制。
形象比喻	L2 正則化 = 給權重加橡皮筋擰緊了，模型學不動；放松了，模型亂記。只有適度，效果最佳。

下篇會用相同格式介紹dropout正則化和一些其他幫助緩解過擬合的方式。
同時，也可以思考一個問題，應用正則化和直接調節學習率有什么不同呢？
我們完成正(zheng)則化部分再來解答這個問題。

posted @ 2025-10-29 14:01 哥布林學者閱讀(128) 評論(0) 收藏舉報

刷新頁面返回頂部

中文字幕精品亚洲无线码二区,国产黄a三级三级三级看三级,亚洲七七久久桃花影院,丰满少妇被猛烈进入,国产小视频在线观看网站

Goblinscholar

吳恩達深度學(xue)習課程(cheng)二：改善深層神經網絡第一(yi)周：深度學(xue)習的實(shi)踐(jian)（二）L2正則(ze)化

1.正則化的出現原因

2.什么是正則化？

3. L2 正則化

3.1數學原理

（1）什么叫Frobenius 范數？

（2）懲罰項的存在是如何緩解過擬合的？

（3）正則化系數 \(\lambda\) 的設置和作用？

3.2 “人話版總結”

公告

中文字幕精品亚洲无线码二区,国产黄a三级三级三级看三级,亚洲七七久久桃花影院,丰满少妇被猛烈进入,国产小视频在线观看网站

Goblinscholar

吳恩達深度學(xue)習課程(cheng)二： 改善深層神經網絡 第一(yi)周：深度學(xue)習的實(shi)踐(jian)（二）L2正則(ze)化

1.正則化的出現原因

2.什么是正則化？

3. L2 正則化

3.1數學原理

（1）什么叫Frobenius 范數？

（2）懲罰項的存在是如何緩解過擬合的？

（3）正則化系數 \(\lambda\) 的設置和作用？

3.2 “人話版總結”

公告

吳恩達深度學(xue)習課程(cheng)二：改善深層神經網絡第一(yi)周：深度學(xue)習的實(shi)踐(jian)（二）L2正則(ze)化