欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁綜合 正文
目錄

柚子快報(bào)邀請(qǐng)碼778899分享:神經(jīng)網(wǎng)絡(luò) | 常見的激活函數(shù)

柚子快報(bào)邀請(qǐng)碼778899分享:神經(jīng)網(wǎng)絡(luò) | 常見的激活函數(shù)

http://yzkb.51969.com/

Hi,大家好,我是半畝花海。本文主要介紹神經(jīng)網(wǎng)絡(luò)中必要的激活函數(shù)的定義、分類、作用以及常見的激活函數(shù)的功能。

目錄

一、激活函數(shù)定義

二、激活函數(shù)分類

三、常見的幾種激活函數(shù)

1. Sigmoid 函數(shù)

(1)公式

(2)圖像

(3)優(yōu)點(diǎn)與不足

2. Tanh 函數(shù)

(1)公式

(2)圖像

(3)優(yōu)點(diǎn)與不足

3. ReLU 函數(shù)

(1)公式

(2)圖像

(3)優(yōu)點(diǎn)與不足

4. Softmax 函數(shù)

(1)公式

(2)圖像

(3)特點(diǎn)與不足

一、激活函數(shù)定義

激活函數(shù)(Activation Function),就是在人工神經(jīng)網(wǎng)絡(luò)的神經(jīng)元上運(yùn)行的函數(shù),負(fù)責(zé)將神經(jīng)元的輸入映射到輸出端,旨在幫助網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)中的復(fù)雜模式。

激活函數(shù)是神經(jīng)網(wǎng)絡(luò)中的一種非線性變換,它定義在每個(gè)神經(jīng)元上,將神經(jīng)元輸入信號(hào)轉(zhuǎn)換為輸出信號(hào)。在深度學(xué)習(xí)中,激活函數(shù)非常重要,因?yàn)樗鼈兪股窠?jīng)網(wǎng)絡(luò)能夠捕捉到非線性關(guān)系,從而能夠更好地逼近復(fù)雜的函數(shù)或映射。

下圖展示了一個(gè)神經(jīng)元是如何輸入激活函數(shù)以及如何得到該神經(jīng)元最終的輸出:

?

二、激活函數(shù)分類

激活函數(shù)可以分成兩類——飽和激活函數(shù)和非飽和激活函數(shù)。

?

飽和激活函數(shù):?Sigmoid、 Tanh...非飽和激活函數(shù):??ReLU 、Leaky Relu ?、ELU、PReLU、RReLU...

了解一下飽和:

假設(shè) h(x) 是一個(gè)激活函數(shù)。

當(dāng)我們的 n 趨近于正無窮,激活函數(shù)的導(dǎo)數(shù)趨近于 0,那么我們稱之為右飽和。

當(dāng)我們的 n 趨近于負(fù)無窮,激活函數(shù)的導(dǎo)數(shù)趨近于 0,那么我們稱之為左飽和。

當(dāng)一個(gè)函數(shù)既滿足左飽和又滿足右飽和的時(shí)候我們就稱之為飽和,典型的函數(shù)有 Sigmoid、Tanh 函數(shù)。

反之,不滿足以上條件的函數(shù)則稱為非飽和激活函數(shù)。

Sigmoid 函數(shù)需要一個(gè)實(shí)值輸入壓縮至 [0,1] 的范圍。tanh 函數(shù)需要講一個(gè)實(shí)值輸入壓縮至 [-1, 1] 的范圍。

相對(duì)于飽和激活函數(shù),使用非飽和激活函數(shù)的優(yōu)勢(shì)在于兩點(diǎn):

非飽和激活函數(shù)能解決深度神經(jīng)網(wǎng)絡(luò)(層數(shù)非常多)帶來的梯度消失問題。使用非飽和激活函數(shù)能加快收斂速度。

三、常見的幾種激活函數(shù)

在深度學(xué)習(xí)中,最常用的激活函數(shù)包括?Sigmoid函數(shù)、ReLU函數(shù)(Rectified Linear Unit)、Tanh 函數(shù)、Softmax 函數(shù)等。這些激活函數(shù)不同的特點(diǎn)和優(yōu)缺點(diǎn),應(yīng)根據(jù)具體的問題選擇合適的激活函數(shù)。

例如:Sigmoid 函數(shù)在輸出處的值域?yàn)?[0,1],可以將輸出解釋為概率,因此常用于二分類問題;ReLU 函數(shù)在輸入為負(fù)數(shù)時(shí)輸出為 0,可以有效地解決梯度消失問題,因此廣泛應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)中。

1. Sigmoid 函數(shù)

(1)公式

Sigmoid?激活函數(shù)的數(shù)學(xué)表達(dá)式為:

導(dǎo)數(shù)表達(dá)式為:

(2)圖像

(3)優(yōu)點(diǎn)與不足

Sigmoid 優(yōu)點(diǎn):

值域?yàn)?[0, 1],非常適合作為模型的輸出函數(shù)用于輸出一個(gè) (0,1) 范圍內(nèi)的概率值,可用于將預(yù)測(cè)概率作為輸出的模型,比如用于表示二分類的類別或者用于表示置信度。Sigmoid 函數(shù)的輸出范圍是 0 到 1。由于輸出值限定在 0 到 1,因此它對(duì)每個(gè)神經(jīng)元的輸出進(jìn)行了歸一化。該函數(shù)是連續(xù)可導(dǎo)的(即可微),可以提供非常平滑的梯度值,防止模型訓(xùn)練過程中出現(xiàn)突變的梯度(即避免“跳躍”的輸出值)。

Sigmoid 不足:

從其導(dǎo)數(shù)的函數(shù)圖像上可以看到,其導(dǎo)數(shù)的最大值只有 0.25,而且當(dāng) x 在 [-5, 5] 的范圍外時(shí)其導(dǎo)數(shù)值就已經(jīng)幾乎接近于 0 了。這種情況會(huì)導(dǎo)致訓(xùn)練過程中神經(jīng)元處于一種飽和狀態(tài),反向傳播時(shí)其權(quán)重幾乎得不到更新,從而使得模型變得難以訓(xùn)練,這種現(xiàn)象被稱為梯度消失問題。其輸出不是以 0 為中心而是都大于 0 的(這會(huì)降低權(quán)重更新的效率),這樣下一層的神經(jīng)元會(huì)得到上一層輸出的全正信號(hào)作為輸入,所以 Sigmoid 激活函數(shù)不適合放在神經(jīng)網(wǎng)絡(luò)的前面層而一般是放在最后的輸出層中使用。需要進(jìn)行指數(shù)運(yùn)算(計(jì)算機(jī)運(yùn)行得較慢),計(jì)算量大及計(jì)算復(fù)雜度高,訓(xùn)練耗時(shí);指數(shù)的越大其倒數(shù)就越小,容易產(chǎn)生梯度消失。

2. Tanh 函數(shù)

(1)公式

Tanh 激活函數(shù)的數(shù)學(xué)表達(dá)式為:

導(dǎo)數(shù)表達(dá)式為:

(2)圖像

(3)優(yōu)點(diǎn)與不足

Tanh 優(yōu)點(diǎn):

在分類任務(wù)中,雙曲正切函數(shù)(Tanh)逐漸取代 Sigmoid 函數(shù)作為標(biāo)準(zhǔn)的激活函數(shù),其具有很多神經(jīng)網(wǎng)絡(luò)所鐘愛的特征。它是完全可微分的,反對(duì)稱,對(duì)稱中心在原點(diǎn)。輸出是 S 型曲線,具備打破網(wǎng)絡(luò)層與網(wǎng)絡(luò)層之間的線性關(guān)系,可以把網(wǎng)絡(luò)層輸出非線形地映射到 (?1,1) 區(qū)間里。負(fù)輸入將被強(qiáng)映射為負(fù),而零輸入被映射為接近零;Tanh 的輸出間隔為 1?且值域是以 0 為中心的 [-1,1](可以解決 Sigmoid 激活函數(shù)輸出不以 0?為中心的問題。)在一般的二元分類問題中,Tanh 函數(shù)一般用于隱藏層,而 Sigmoid 函數(shù)用于輸出層,但這并不是固定的,需要根據(jù)特定問題進(jìn)行調(diào)整。

Tanh 不足:

當(dāng)輸入較大或較小時(shí),輸出幾乎是平滑的并且梯度較小,這不利于權(quán)重更新。Tanh 函數(shù)也需要進(jìn)行指數(shù)運(yùn)算,所以其也會(huì)存在計(jì)算復(fù)雜度高且計(jì)算量大的問題。當(dāng)神經(jīng)網(wǎng)絡(luò)的層數(shù)增多的時(shí)候,由于在進(jìn)行反向傳播的時(shí)候,鏈?zhǔn)角髮?dǎo),多項(xiàng)相乘,函數(shù)進(jìn)入飽和區(qū)(導(dǎo)數(shù)接近于零的地方)就會(huì)逐層傳遞,這種現(xiàn)象被稱為梯度消失。

3. ReLU 函數(shù)

(1)公式

ReLU 激活函數(shù)的數(shù)學(xué)表達(dá)式為:

導(dǎo)數(shù)表達(dá)式為:

(2)圖像

(3)優(yōu)點(diǎn)與不足

① ReLU 優(yōu)點(diǎn):

ReLU 函數(shù)在正輸入時(shí)是線性的,收斂速度快,計(jì)算速度快,同時(shí)符合恒等性的特點(diǎn)。當(dāng)輸入為正時(shí),由于導(dǎo)數(shù)是1,能夠完整傳遞梯度,不存在梯度消失的問題(梯度飽和問題)。計(jì)算速度快。ReLU 函數(shù)中只存在線性關(guān)系且無論是函數(shù)還是其導(dǎo)數(shù)都不包含復(fù)雜的數(shù)學(xué)運(yùn)算,因此它的計(jì)算速度比 Sigmoid 和 Tanh 更快。當(dāng)輸入大于0時(shí),梯度為1,能夠有效避免鏈?zhǔn)角髮?dǎo)法則梯度相乘引起的梯度消失和梯度爆炸;計(jì)算成本低。它保留了 step 函數(shù)的生物學(xué)啟發(fā)(只有輸入超出閾值時(shí)神經(jīng)元才激活),不過當(dāng)輸入為正的時(shí)候,導(dǎo)數(shù)不為零,從而允許基于梯度的學(xué)習(xí)(盡管在 x=0 的時(shí)候,導(dǎo)數(shù)是未定義的)。當(dāng)輸入為負(fù)值的時(shí)候,ReLU 的學(xué)習(xí)速度可能會(huì)變得很慢,甚至使神經(jīng)元直接無效。因?yàn)榇藭r(shí)輸入小于零而梯度為零,從而其權(quán)重?zé)o法得到更新,在剩下的訓(xùn)練過程中會(huì)一直保持靜默。

② ReLU 不足:

ReLU 的輸入值為負(fù)的時(shí)候,輸出始終為 0,其一階導(dǎo)數(shù)也始終為 0,這樣會(huì)導(dǎo)致神經(jīng)元不能更新參數(shù),也就是神經(jīng)元不學(xué)習(xí)了,這種現(xiàn)象叫做“Dead Neuron”。為了解決 ReLU 函數(shù)這個(gè)缺點(diǎn),在 ReLU 函數(shù)的負(fù)半?yún)^(qū)間引入一個(gè)泄露(Leaky)值,所以稱為 Leaky ReLU 函數(shù)。與 Sigmoid 一樣,其輸出不是以 0 為中心的(ReLU 的輸出為 0 或正數(shù))。ReLU 在小于 0 的時(shí)候梯度為零,導(dǎo)致了某些神經(jīng)元永遠(yuǎn)被抑制,最終造成特征的學(xué)習(xí)不充分;這是典型的 Dead ReLU 問題,所以需要改進(jìn)隨機(jī)初始化,避免將過多的負(fù)數(shù)特征送入ReLU。

4. Softmax 函數(shù)

(1)公式

Softmax 激活函數(shù)的數(shù)學(xué)表達(dá)式為:

這里使用梯度無法求導(dǎo),所以導(dǎo)函數(shù)圖像是一個(gè) y=0 的直線。

(2)圖像

(3)特點(diǎn)與不足

① Softmax 特點(diǎn):

在零點(diǎn)不可微,負(fù)輸入的梯度為零。這意味著對(duì)于該區(qū)域的激活,權(quán)重不會(huì)在反向傳播期間更新,因此會(huì)產(chǎn)生永不激活的死亡神經(jīng)元。將預(yù)測(cè)結(jié)果轉(zhuǎn)化為非負(fù)數(shù)、預(yù)測(cè)結(jié)果概率之和等于1。經(jīng)過使用指數(shù)形式的 Softmax 函數(shù)能夠?qū)⒉罹啻蟮臄?shù)值距離拉的更大。在深度學(xué)習(xí)中通常使用反向傳播求解梯度進(jìn)而使用梯度下降進(jìn)行參數(shù)更新的過程,而指數(shù)函數(shù)在求導(dǎo)的時(shí)候比較方便.

② Softmax 不足:

使用指數(shù)函數(shù),當(dāng)輸出值非常大的話,計(jì)算得到的數(shù)值也會(huì)變的非常大,數(shù)值可能會(huì)溢出。

柚子快報(bào)邀請(qǐng)碼778899分享:神經(jīng)網(wǎng)絡(luò) | 常見的激活函數(shù)

http://yzkb.51969.com/

精彩內(nèi)容

評(píng)論可見,查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。

轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://m.gantiao.com.cn/post/19539927.html

發(fā)布評(píng)論

您暫未設(shè)置收款碼

請(qǐng)?jiān)谥黝}配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪問

文章目錄