深度學(xué)習(xí)入門必須理解這25個(gè)概念

作者：時(shí)間：2017-10-17 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

本文引用地址：http://m.ptau.cn/article/201710/370123.htm

　　1、神經(jīng)元(Neuron)——就像形成我們大腦基本元素的神經(jīng)元一樣，神經(jīng)元形成神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)。想象一下，當(dāng)我們得到新信息時(shí)我們?cè)撛趺醋?。?dāng)我們獲取信息時(shí)，我們一般會(huì)處理它，然后生成一個(gè)輸出。類似地，在神經(jīng)網(wǎng)絡(luò)的情況下，神經(jīng)元接收輸入，處理它并產(chǎn)生輸出，而這個(gè)輸出被發(fā)送到其他神經(jīng)元用于進(jìn)一步處理，或者作為最終輸出進(jìn)行輸出。

　　2、權(quán)重(Weights)——當(dāng)輸入進(jìn)入神經(jīng)元時(shí)，它會(huì)乘以一個(gè)權(quán)重。例如，如果一個(gè)神經(jīng)元有兩個(gè)輸入，則每個(gè)輸入將具有分配給它的一個(gè)關(guān)聯(lián)權(quán)重。我們隨機(jī)初始化權(quán)重，并在模型訓(xùn)練過程中更新這些權(quán)重。訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)對(duì)其輸入賦予較高的權(quán)重，這是它認(rèn)為與不那么重要的輸入相比更為重要的輸入。為零的權(quán)重則表示特定的特征是微不足道的。

　　讓我們假設(shè)輸入為 a，并且與其相關(guān)聯(lián)的權(quán)重為 W1，那么在通過節(jié)點(diǎn)之后，輸入變?yōu)?nbsp;a *W1。

　　3、偏差(Bias)——除了權(quán)重之外，另一個(gè)被應(yīng)用于輸入的線性分量被稱為偏差。它被加到權(quán)重與輸入相乘的結(jié)果中。基本上添加偏差的目的是來改變權(quán)重與輸入相乘所得結(jié)果的范圍的。添加偏差后，結(jié)果將看起來像 a* W1 偏差。這是輸入變換的最終線性分量。

　　4、激活函數(shù)(Activation Function)——一旦將線性分量應(yīng)用于輸入，將會(huì)需要應(yīng)用一個(gè)非線性函數(shù)。這通過將激活函數(shù)應(yīng)用于線性組合來完成。激活函數(shù)將輸入信號(hào)轉(zhuǎn)換為輸出信號(hào)。應(yīng)用激活函數(shù)后的輸出看起來像 f(a *W1+ b)，其中 f()就是激活函數(shù)。

　　在下圖中，我們將"n"個(gè)輸入給定為 X1 到 Xn 而與其相應(yīng)的權(quán)重為 Wk1 到 Wkn。我們有一個(gè)給定值為 bk 的偏差。權(quán)重首先乘以與其對(duì)應(yīng)的輸入，然后與偏差加在一起。而這個(gè)值叫做 u。

　　U =ΣW*X +b

　　激活函數(shù)被應(yīng)用于 u，即 f(u)，并且我們會(huì)從神經(jīng)元接收最終輸出，如 yk = f(u)。

　　常用的激活函數(shù)

　　最常用的激活函數(shù)就是 Sigmoid，ReLU 和 softmax

　　(a)Sigmoid——最常用的激活函數(shù)之一是 Sigmoid，它被定義為：

　　sigmoid(x)=1/(1+e -x )

　　Sigmoid 變換產(chǎn)生一個(gè)值為 0 到 1 之間更平滑的范圍。我們可能需要觀察在輸入值略有變化時(shí)輸出值中發(fā)生的變化。光滑的曲線使我們能夠做到這一點(diǎn)，因此優(yōu)于階躍函數(shù)。

　　(b)ReLU(整流線性單位)——與 Sigmoid 函數(shù)不同的是，最近的網(wǎng)絡(luò)更喜歡使用 ReLu 激活函數(shù)來處理隱藏層。該函數(shù)定義為：

　　f(x)=max(x,0)

　　當(dāng) X>0 時(shí)，函數(shù)的輸出值為 X;當(dāng) X<=0 時(shí)，輸出值為 0。函數(shù)圖如下圖所示：

　　使用 ReLU 函數(shù)的最主要的好處是對(duì)于大于 0 的所有輸入來說，它都有一個(gè)不變的導(dǎo)數(shù)值。常數(shù)導(dǎo)數(shù)值有助于網(wǎng)絡(luò)訓(xùn)練進(jìn)行得更快。

　　(c) Softmax——Softmax 激活函數(shù)通常用于輸出層，用于分類問題。它與 sigmoid 函數(shù)是很類似的，唯一的區(qū)別就是輸出被歸一化為總和為 1。Sigmoid 函數(shù)將發(fā)揮作用以防我們有一個(gè)二進(jìn)制輸出，但是如果我們有一個(gè)多類分類問題，softmax 函數(shù)使為每個(gè)類分配值這種操作變得相當(dāng)簡(jiǎn)單，而這可以將其解釋為概率。

　　以這種方式來操作的話，我們很容易看到——假設(shè)你正在嘗試識(shí)別一個(gè)可能看起來像 8 的 6。該函數(shù)將為每個(gè)數(shù)字分配值如下。我們可以很容易地看出，最高概率被分配給 6，而下一個(gè)最高概率分配給 8，依此類推……

　　5、神經(jīng)網(wǎng)絡(luò)(Neural Network)——神經(jīng)網(wǎng)絡(luò)構(gòu)成了深度學(xué)習(xí)的支柱。神經(jīng)網(wǎng)絡(luò)的目標(biāo)是找到一個(gè)未知函數(shù)的近似值。它由相互聯(lián)系的神經(jīng)元形成。這些神經(jīng)元具有權(quán)重和在網(wǎng)絡(luò)訓(xùn)練期間根據(jù)錯(cuò)誤來進(jìn)行更新的偏差。激活函數(shù)將非線性變換置于線性組合，而這個(gè)線性組合稍后會(huì)生成輸出。激活的神經(jīng)元的組合會(huì)給出輸出值。

　　一個(gè)很好的神經(jīng)網(wǎng)絡(luò)定義：

　　"神經(jīng)網(wǎng)絡(luò)由許多相互關(guān)聯(lián)的概念化的人造神經(jīng)元組成，它們之間傳遞相互數(shù)據(jù)，并且具有根據(jù)網(wǎng)絡(luò)"經(jīng)驗(yàn)"調(diào)整的相關(guān)權(quán)重。神經(jīng)元具有激活閾值，如果通過其相關(guān)權(quán)重的組合和傳遞給他們的數(shù)據(jù)滿足這個(gè)閾值的話，其將被解雇;發(fā)射神經(jīng)元的組合導(dǎo)致"學(xué)習(xí)"。

　　6、輸入/輸出/隱藏層(Input / Output / Hidden Layer)——正如它們名字所代表的那樣，輸入層是接收輸入那一層，本質(zhì)上是網(wǎng)絡(luò)的第一層。而輸出層是生成輸出的那一層，也可以說是網(wǎng)絡(luò)的最終層。處理層是網(wǎng)絡(luò)中的隱藏層。這些隱藏層是對(duì)傳入數(shù)據(jù)執(zhí)行特定任務(wù)并將其生成的輸出傳遞到下一層的那些層。輸入和輸出層是我們可見的，而中間層則是隱藏的。

　　7、MLP(多層感知器)——單個(gè)神經(jīng)元將無法執(zhí)行高度復(fù)雜的任務(wù)。因此，我們使用堆棧的神經(jīng)元來生成我們所需要的輸出。在最簡(jiǎn)單的網(wǎng)絡(luò)中，我們將有一個(gè)輸入層、一個(gè)隱藏層和一個(gè)輸出層。每個(gè)層都有多個(gè)神經(jīng)元，并且每個(gè)層中的所有神經(jīng)元都連接到下一層的所有神經(jīng)元。這些網(wǎng)絡(luò)也可以被稱為完全連接的網(wǎng)絡(luò)。

　　8、正向傳播(Forward Propagation)——正向傳播是指輸入通過隱藏層到輸出層的運(yùn)動(dòng)。在正向傳播中，信息沿著一個(gè)單一方向前進(jìn)。輸入層將輸入提供給隱藏層，然后生成輸出。這過程中是沒有反向運(yùn)動(dòng)的。

　　9、成本函數(shù)(Cost Function)——當(dāng)我們建立一個(gè)網(wǎng)絡(luò)時(shí)，網(wǎng)絡(luò)試圖將輸出預(yù)測(cè)得盡可能靠近實(shí)際值。我們使用成本/損失函數(shù)來衡量網(wǎng)絡(luò)的準(zhǔn)確性。而成本或損失函數(shù)會(huì)在發(fā)生錯(cuò)誤時(shí)嘗試懲罰網(wǎng)絡(luò)。

　　我們?cè)谶\(yùn)行網(wǎng)絡(luò)時(shí)的目標(biāo)是提高我們的預(yù)測(cè)精度并減少誤差，從而最大限度地降低成本。最優(yōu)化的輸出是那些成本或損失函數(shù)值最小的輸出。

　　如果我將成本函數(shù)定義為均方誤差，則可以寫為：

　　C= 1/m ∑(y–a)^2，

　　其中 m 是訓(xùn)練輸入的數(shù)量，a 是預(yù)測(cè)值，y 是該特定示例的實(shí)際值。

　　學(xué)習(xí)過程圍繞最小化成本來進(jìn)行。

　　10、梯度下降(Gradient Descent)——梯度下降是一種最小化成本的優(yōu)化算法。要直觀地想一想，在爬山的時(shí)候，你應(yīng)該會(huì)采取小步驟，一步一步走下來，而不是一下子跳下來。因此，我們所做的就是，如果我們從一個(gè)點(diǎn) x 開始，我們向下移動(dòng)一點(diǎn)，即Δh，并將我們的位置更新為 x-Δh，并且我們繼續(xù)保持一致，直到達(dá)到底部。考慮最低成本點(diǎn)。

　　在數(shù)學(xué)上，為了找到函數(shù)的局部最小值，我們通常采取與函數(shù)梯度的負(fù)數(shù)成比例的步長(zhǎng)。

　　11、學(xué)習(xí)率(Learning Rate)——學(xué)習(xí)率被定義為每次迭代中成本函數(shù)中最小化的量。簡(jiǎn)單來說，我們下降到成本函數(shù)的最小值的速率是學(xué)習(xí)率。我們應(yīng)該非常仔細(xì)地選擇學(xué)習(xí)率，因?yàn)樗粦?yīng)該是非常大的，以至于最佳解決方案被錯(cuò)過，也不應(yīng)該非常低，以至于網(wǎng)絡(luò)需要融合。

　　12、反向傳播(Backpropagation)——當(dāng)我們定義神經(jīng)網(wǎng)絡(luò)時(shí)，我們?yōu)槲覀兊墓?jié)點(diǎn)分配隨機(jī)權(quán)重和偏差值。一旦我們收到單次迭代的輸出，我們就可以計(jì)算出網(wǎng)絡(luò)的錯(cuò)誤。然后將該錯(cuò)誤與成本函數(shù)的梯度一起反饋給網(wǎng)絡(luò)以更新網(wǎng)絡(luò)的權(quán)重。最后更新這些權(quán)重，以便減少后續(xù)迭代中的錯(cuò)誤。使用成本函數(shù)的梯度的權(quán)重的更新被稱為反向傳播。

　　在反向傳播中，網(wǎng)絡(luò)的運(yùn)動(dòng)是向后的，錯(cuò)誤隨著梯度從外層通過隱藏層流回，權(quán)重被更新。

　　13、批次(Batches)——在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的同時(shí)，不用一次發(fā)送整個(gè)輸入，我們將輸入分成幾個(gè)隨機(jī)大小相等的塊。與整個(gè)數(shù)據(jù)集一次性饋送到網(wǎng)絡(luò)時(shí)建立的模型相比，批量訓(xùn)練數(shù)據(jù)使得模型更加廣義化。

　　14、周期(Epochs)——周期被定義為向前和向后傳播中所有批次的單次訓(xùn)練迭代。這意味著 1 個(gè)周期是整個(gè)輸入數(shù)據(jù)的單次向前和向后傳遞。

　　你可以選擇你用來訓(xùn)練網(wǎng)絡(luò)的周期數(shù)量，更多的周期將顯示出更高的網(wǎng)絡(luò)準(zhǔn)確性，然而，網(wǎng)絡(luò)融合也需要更長(zhǎng)的時(shí)間。另外，你必須注意，如果周期數(shù)太高，網(wǎng)絡(luò)可能會(huì)過度擬合。

　　15、丟棄(Dropout)——Dropout 是一種正則化技術(shù)，可防止網(wǎng)絡(luò)過度擬合套。顧名思義，在訓(xùn)練期間，隱藏層中的一定數(shù)量的神經(jīng)元被隨機(jī)地丟棄。這意味著訓(xùn)練發(fā)生在神經(jīng)網(wǎng)絡(luò)的不同組合的神經(jīng)網(wǎng)絡(luò)的幾個(gè)架構(gòu)上。你可以將 Dropout 視為一種綜合技術(shù)，然后將多個(gè)網(wǎng)絡(luò)的輸出用于產(chǎn)生最終輸出。

　　16、批量歸一化(Batch Normalization)——作為一個(gè)概念，批量歸一化可以被認(rèn)為是我們?cè)诤恿髦性O(shè)定為特定檢查點(diǎn)的水壩。這樣做是為了確保數(shù)據(jù)的分發(fā)與希望獲得的下一層相同。當(dāng)我們訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)，權(quán)重在梯度下降的每個(gè)步驟之后都會(huì)改變，這會(huì)改變數(shù)據(jù)的形狀如何發(fā)送到下一層。

　　但是下一層預(yù)期分布類似于之前所看到的分布。所以我們?cè)趯?shù)據(jù)發(fā)送到下一層之前明確規(guī)范化數(shù)據(jù)。

　　卷積神經(jīng)網(wǎng)絡(luò)

　　17、濾波器(Filters)——CNN 中的濾波器與加權(quán)矩陣一樣，它與輸入圖像的一部分相乘以產(chǎn)生一個(gè)回旋輸出。我們假設(shè)有一個(gè)大小為 28 28 的圖像，我們隨機(jī)分配一個(gè)大小為 3 3 的濾波器，然后與圖像不同的 3 * 3 部分相乘，形成所謂的卷積輸出。濾波器尺寸通常小于原始圖像尺寸。在成本最小化的反向傳播期間，濾波器值被更新為重量值。

　　參考一下下圖，這里 filter 是一個(gè) 3 * 3 矩陣：

　　與圖像的每個(gè) 3 * 3 部分相乘以形成卷積特征。

　　18、卷積神經(jīng)網(wǎng)絡(luò)(CNN)——卷積神經(jīng)網(wǎng)絡(luò)基本上應(yīng)用于圖像數(shù)據(jù)。假設(shè)我們有一個(gè)輸入的大小(28 28 3)，如果我們使用正常的神經(jīng)網(wǎng)絡(luò)，將有 2352(28 28 3)參數(shù)。并且隨著圖像的大小增加參數(shù)的數(shù)量變得非常大。我們"卷積"圖像以減少參數(shù)數(shù)量(如上面濾波器定義所示)。當(dāng)我們將濾波器滑動(dòng)到輸入體積的寬度和高度時(shí)，將產(chǎn)生一個(gè)二維激活圖，給出該濾波器在每個(gè)位置的輸出。我們將沿深度尺寸堆疊這些激活圖，并產(chǎn)生輸出量。

　　你可以看到下面的圖，以獲得更清晰的印象。

　　19、池化(Pooling)——通常在卷積層之間定期引入池層。這基本上是為了減少一些參數(shù)，并防止過度擬合。最常見的池化類型是使用 MAX 操作的濾波器尺寸(2,2)的池層。它會(huì)做的是，它將占用原始圖像的每個(gè) 4 * 4 矩陣的最大值。

　　你還可以使用其他操作(如平均池)進(jìn)行池化，但是最大池?cái)?shù)量在實(shí)踐中表現(xiàn)更好。

　　20、填充(Padding)——填充是指在圖像之間添加額外的零層，以使輸出圖像的大小與輸入相同。這被稱為相同的填充。

　　在應(yīng)用濾波器之后，在相同填充的情況下，卷積層具有等于實(shí)際圖像的大小。

　　有效填充是指將圖像保持為具有實(shí)際或"有效"的圖像的所有像素。在這種情況下，在應(yīng)用濾波器之后，輸出的長(zhǎng)度和寬度的大小在每個(gè)卷積層處不斷減小。

　　21、數(shù)據(jù)增強(qiáng)(Data Augmentation)——數(shù)據(jù)增強(qiáng)是指從給定數(shù)據(jù)導(dǎo)出的新數(shù)據(jù)的添加，這可能被證明對(duì)預(yù)測(cè)有益。例如，如果你使光線變亮，可能更容易在較暗的圖像中看到貓，或者例如，數(shù)字識(shí)別中的 9 可能會(huì)稍微傾斜或旋轉(zhuǎn)。在這種情況下，旋轉(zhuǎn)將解決問題并提高我們的模型的準(zhǔn)確性。通過旋轉(zhuǎn)或增亮，我們正在提高數(shù)據(jù)的質(zhì)量。這被稱為數(shù)據(jù)增強(qiáng)。

　　循環(huán)神經(jīng)網(wǎng)絡(luò)

　　22、循環(huán)神經(jīng)元(Recurrent Neuron)——循環(huán)神經(jīng)元是在 T 時(shí)間內(nèi)將神經(jīng)元的輸出發(fā)送回給它。如果你看圖，輸出將返回輸入 t 次。展開的神經(jīng)元看起來像連接在一起的 t 個(gè)不同的神經(jīng)元。這個(gè)神經(jīng)元的基本優(yōu)點(diǎn)是它給出了更廣義的輸出。

　　23、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)——循環(huán)神經(jīng)網(wǎng)絡(luò)特別用于順序數(shù)據(jù)，其中先前的輸出用于預(yù)測(cè)下一個(gè)輸出。在這種情況下，網(wǎng)絡(luò)中有循環(huán)。隱藏神經(jīng)元內(nèi)的循環(huán)使他們能夠存儲(chǔ)有關(guān)前一個(gè)單詞的信息一段時(shí)間，以便能夠預(yù)測(cè)輸出。隱藏層的輸出在 t 時(shí)間戳內(nèi)再次發(fā)送到隱藏層。展開的神經(jīng)元看起來像上圖。只有在完成所有的時(shí)間戳后，循環(huán)神經(jīng)元的輸出才能進(jìn)入下一層。發(fā)送的輸出更廣泛，以前的信息保留的時(shí)間也較長(zhǎng)。

　　然后根據(jù)展開的網(wǎng)絡(luò)將錯(cuò)誤反向傳播以更新權(quán)重。這被稱為通過時(shí)間的反向傳播(BPTT)。

　　24、消失梯度問題(Vanishing Gradient Problem)——激活函數(shù)的梯度非常小的情況下會(huì)出現(xiàn)消失梯度問題。在權(quán)重乘以這些低梯度時(shí)的反向傳播過程中，它們往往變得非常小，并且隨著網(wǎng)絡(luò)進(jìn)一步深入而"消失"。這使得神經(jīng)網(wǎng)絡(luò)忘記了長(zhǎng)距離依賴。這對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)來說是一個(gè)問題，長(zhǎng)期依賴對(duì)于網(wǎng)絡(luò)來說是非常重要的。

　　這可以通過使用不具有小梯度的激活函數(shù) ReLu 來解決。

　　25、激增梯度問題(Exploding Gradient Problem)——這與消失的梯度問題完全相反，激活函數(shù)的梯度過大。在反向傳播期間，它使特定節(jié)點(diǎn)的權(quán)重相對(duì)于其他節(jié)點(diǎn)的權(quán)重非常高，這使得它們不重要。這可以通過剪切梯度來輕松解決，使其不超過一定值。