中文字幕精品亚洲无线码二区,国产黄a三级三级三级看三级,亚洲七七久久桃花影院,丰满少妇被猛烈进入,国产小视频在线观看网站

吳恩(en)達深度學(xue)習(xi)課程一:神經(jing)網絡和深度學(xue)習(xi) 第三周:淺層神經(jing)網絡(三)初(chu)始(shi)化

此分類用于記錄吳恩達深度學習課程的學習筆記。
課程(cheng)相關信(xin)息鏈接如下:

  1. 原課程視頻鏈接:
  2. github課程資料,含課件與筆記:
  3. 課程配套練習(中英)與答案:

本篇為(wei)第一課第三周,部分的筆記內容,同時也是本周理論部分的最后一篇。

經過第二周的基礎補充,本周內容的理解難度可以說有了很大的降低,主要是從邏輯回歸擴展到淺層神經網絡,講解相關內容,我們按部就班梳理課程內容即可,當然,依舊會盡可能地創造一個較為絲滑的理解過程。
上一篇通過展開講述激活函數的作用,并再次過了一遍淺層神經網絡的傳播過程,來說明淺層神經網絡如何提高擬合能力,本篇則補上最后一塊拼圖,同時也是本周理論部分的最后一篇。
在這周的例子里,我們設置神經網絡隱藏層的神經元為四個,輸出層的神經元再綜合四個神經元的輸出結果計算最終的輸出,那隱藏層神經元的數量增加后,又是如何發揮正向的作用呢?
我們知道每個神經元都有自己的參數,我們通過不斷訓練參數達到擬合效果,如何讓每個神經元都真的對擬合起到幫助作用,就是本篇的內容:隨機初始化

1. 什么是初始化

在訓練神經網絡之前,我們并不知道哪些參數(權重 \(W\) 和偏置 \(b\))是最好的,因此需要先給它們一個“起始值”,這個過程就叫做初始化
這些初始值相當于我們在參數空間中的“出發點”,之后通過梯度下降不斷調整,逐步逼近損失函數的最小值。
簡單來說,就是賦初值

2. 為什么要隨機初始化

在邏輯回(hui)歸(gui)中,我們(men)并(bing)不強調初始化內(nei)容,這是因為(wei)整(zheng)個網絡(luo)只(zhi)有一層線性(xing)組合與(yu)其相關的(de)參(can)數,我們(men)的(de)所有操作(zuo)都(dou)是在更新這一組參(can)數,因此,把這組參(can)數初始化成什(shen)么(me)樣(yang),并(bing)不算一個需要思考的(de)地方(fang),因為(wei)這組參(can)數最(zui)終都(dou)會隨著(zhu)更新讓(rang)損失達到最(zui)低點。

而(er)現在(zai),我(wo)們在(zai)隱藏層設(she)置四個神經(jing)元,如果所(suo)有參數一(yi)(yi)開始都設(she)為同一(yi)(yi)個值(例如全為 0),會出現一(yi)(yi)個非常(chang)嚴(yan)重的問題,我(wo)們看這樣一(yi)(yi)個過程:

  1. 每個隱藏層神經元收到的輸入一樣
  2. 計算得到的中間結果也完全一樣
  3. 反向傳播時梯度也一樣
  4. 于是所有神經元更新后的參數依舊完全相同
    Pasted image 20251020100419

這樣訓練下去,即使我們設置了很多神經元,它們都在“做同樣的事情”,模型就退化成只有一個神經元的效果。用專業術語來說,這叫對稱性問題(Symmetry Problem)

而解決辦法就是在初始化時給每個神經元賦予一個不同的隨機初始權重,打破(po)對稱(cheng)性,讓它們在訓練過程中各(ge)自朝(chao)不同方向(xiang)學習。

3.損失的凸與非凸問題

我們說邏輯回歸不存在對稱性問題,還有另外一個關鍵原因:它的損失函數是凸函數
第二周第四部分我們講過,凸函數具有一個非常重要的特性:全局范圍內只有一個最低點(全局最小值)
這意味著:無論參數從哪里初始化, 只要我們沿著梯度下降方向不斷更新參數,最終都會收斂到同一個最優點
因此即使初始化相同,甚至初始化為 0,也不會導致模型陷入“學不動”或者“神經元行為完全一樣”的問題,如下圖所示:
Pasted image 20251020100135

但當我們從邏輯回歸(單一線性變換)擴展為神經網絡(包含隱藏層、激活函數、多個權重矩陣)時,經過無數函數的相乘,損失函數就不再是一個光滑的碗形函數,而變成了一個復雜的山地地形
有無數個山峰(局部最大值)、山谷(局部最小值)、鞍點(既不是峰也不是谷)。
此時,損失函數不是凸函數,而是非凸的。
因此,我們(men)才需要(yao)隨機初始化(hua)不(bu)同的神經(jing)元,來(lai)不(bu)斷探索損失函(han)數的最小值。

4.舉例類比隨機初始化的作用

我們依舊用山坡來舉例:
現在,我們派 4 個(ge)登山者去尋找(zhao)一片山地的最(zui)低點(dian)(損失函數的最(zui)小值):

情況 結果
所有人從同一個山頂出發(全零初始化) 大家看到的坡度一樣,朝同一個方向走,走的路徑重疊,只等于一個人找路,效率極低。
每個人從不同位置出發(隨機初始化) 各自看到的坡度不一樣,探索方向不同,更可能有人找到更低的谷底(更優解)。

因此,隨機初始化就是給每個神經元一個不同的出發點,讓它們探索不同的優化空間。

5. 權重的隨機初始化

在神經網絡中,隱藏層的每個神經元都擁有屬于自己的權重參數 \(W\) 和偏置 \(b\)
如果我們把所有權重都初始化為相同的值,就會造成一個嚴重的問題:對稱性永遠無法被打破,所有神經元的行為完全一樣,網絡就失去了“多神經元協作學習”的意義。
因此,我們需要為每一個權重賦予一個隨機的初始值,這就叫做權重隨機初始化。
它并不是讓權重變得“亂七八糟”,而是把它們設定在一個很小且隨機的范圍內,例如:

\[W=0.01×np.random.randn(n,m) (由標準正態分布隨機生成的浮點數)\]

這樣,就可以打破對稱性,實現多個隱藏神經元探索多個不同方向的效果。
而(er)對于權重的隨機(ji)初始化(hua),也有一些科學的初始化(hua)算法(fa),我們(men)遇到再說。

6. 偏置的初始化

與權重不同,偏置 \(b\) 一般不需要隨機初始化,而是直接初始化為 0 或一個很小的常數
這是因為偏置項不會造成之前提到的“對稱性問題”,它作為一個常數,只是簡單地把激活函數的輸入整體向左或向右平移,不會影響神經元之間是否相同。
因此,在權重已經隨機初始化實現了打亂效果后,我們便不會把過多的算法性能浪費在偏置(zhi)上(shang)。

總結

這便是本周課程的最后一部分內容,相比第二周需要較多的基礎補充,本周其實只是實現了從邏輯回歸到淺層神經網絡的擴展,了解了神經網絡規模增加是如何幫助擬合的。
下(xia)一(yi)篇的(de)內容便是本周的(de)課后(hou)習題和代碼實踐,我們用實操(cao)來(lai)感受一(yi)下(xia)帶隱藏(zang)層的(de)神經(jing)網絡相比邏(luo)輯回歸帶來(lai)的(de)性(xing)能(neng)提升。

posted @ 2025-10-20 10:48  哥布林學者  閱讀(195)  評論(0)    收藏  舉報