柚子快報激活碼778899分享:神經(jīng)網(wǎng)絡激活函數(shù)匯總
柚子快報激活碼778899分享:神經(jīng)網(wǎng)絡激活函數(shù)匯總
神經(jīng)網(wǎng)絡中的激活函數(shù)用于引入非線性,使模型能夠?qū)W習和表示復雜的模式。不同的激活函數(shù)有各自的特性和用途。常見的激活函數(shù)包括以下幾種:
1. Sigmoid(S型函數(shù))
公式:
σ
(
x
)
=
1
1
+
e
?
x
\sigma(x) = \frac{1}{1 + e^{-x}}
σ(x)=1+e?x1?輸出范圍: (0, 1)特點:
將輸入值壓縮到 (0, 1) 之間,適合用于輸出為概率的場景。缺點:當輸入值極大或極小時,梯度趨近于零,容易引發(fā)梯度消失問題。 應用場景: 通常用于二分類問題的輸出層。
2. Tanh(雙曲正切函數(shù))
公式:
tanh
(
x
)
=
e
x
?
e
?
x
e
x
+
e
?
x
\text{tanh}(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}
tanh(x)=ex+e?xex?e?x?輸出范圍: (-1, 1)特點:
輸出范圍比 Sigmoid 更廣(-1 到 1),使得輸出能更好地表示負數(shù)和正數(shù)。與 Sigmoid 一樣,tanh 函數(shù)在極大或極小值時,梯度也會趨近于零。 應用場景: 在隱藏層中常用,因為其輸出的均值為 0,能更好地處理數(shù)據(jù)的對稱性。
3. ReLU(Rectified Linear Unit,修正線性單元)
公式:
ReLU
(
x
)
=
max
?
(
0
,
x
)
\text{ReLU}(x) = \max(0, x)
ReLU(x)=max(0,x)輸出范圍: [0, ∞)特點:
在正區(qū)間保持線性,負區(qū)間為零。計算簡單且不會有梯度消失問題(在正區(qū)間)。缺點:在負區(qū)間的梯度為零,神經(jīng)元可能“死亡”,導致無法更新參數(shù)(稱為ReLU 死亡問題)。 應用場景: 廣泛用于隱藏層,尤其是深度神經(jīng)網(wǎng)絡中。
4. Leaky ReLU
公式:
Leaky?ReLU
(
x
)
=
max
?
(
0.01
x
,
x
)
\text{Leaky ReLU}(x) = \max(0.01x, x)
Leaky?ReLU(x)=max(0.01x,x)輸出范圍: (-∞, ∞)特點:
與 ReLU 類似,但允許負值有一個很小的斜率(通常為 0.01),以防止“死亡神經(jīng)元”的問題。 應用場景: 是 ReLU 的改進版本,適用于深度神經(jīng)網(wǎng)絡,能解決部分 ReLU 的問題。
5. ELU(Exponential Linear Unit,指數(shù)線性單元)
公式:
ELU
(
x
)
=
{
x
,
if?
x
>
0
α
(
e
x
?
1
)
,
if?
x
≤
0
\text{ELU}(x) = \begin{cases} x, & \text{if } x > 0 \\ \alpha(e^x - 1), & \text{if } x \leq 0 \end{cases}
ELU(x)={x,α(ex?1),?if?x>0if?x≤0? 其中
α
\alpha
α 是一個超參數(shù),通常取
α
=
1
\alpha = 1
α=1。輸出范圍: (-∞, ∞)特點:
在負值區(qū)間平滑過渡,而不像 ReLU 那樣直接為零,避免了“死亡神經(jīng)元”的問題。在正值區(qū)間與 ReLU 類似。 應用場景: 適用于深層神經(jīng)網(wǎng)絡,通常效果優(yōu)于 ReLU。
6. Softmax(用于多分類的激活函數(shù))
公式:
Softmax
(
x
i
)
=
e
x
i
∑
j
e
x
j
\text{Softmax}(x_i) = \frac{e^{x_i}}{\sum_{j} e^{x_j}}
Softmax(xi?)=∑j?exj?exi??輸出范圍: (0, 1)特點:
將輸出值規(guī)范化為概率分布(所有輸出值加起來為 1)。通常用于多分類問題的輸出層。 應用場景: 用于多分類問題的最后一層,生成每個類別的概率分布。
7. Swish(由 Google 提出的激活函數(shù))
公式:
Swish
(
x
)
=
x
?
σ
(
x
)
=
x
1
+
e
?
x
\text{Swish}(x) = x \cdot \sigma(x) = \frac{x}{1 + e^{-x}}
Swish(x)=x?σ(x)=1+e?xx?輸出范圍: (-∞, ∞)特點:
平滑且無界,類似于 ReLU,但其導數(shù)連續(xù),不像 ReLU 在 0 點有非連續(xù)導數(shù)。Swish 在一些深度神經(jīng)網(wǎng)絡任務中表現(xiàn)優(yōu)于 ReLU 和 Sigmoid。 應用場景: 新型的激活函數(shù),適用于深度學習中的各種任務,常在卷積神經(jīng)網(wǎng)絡(CNN)中使用。
總結(jié):
Sigmoid 和 Tanh:適合淺層網(wǎng)絡,但容易出現(xiàn)梯度消失問題。ReLU 和其變種(Leaky ReLU, ELU):適合深度神經(jīng)網(wǎng)絡,避免了梯度消失問題。Softmax:用于多分類問題的輸出層。Swish:新型激活函數(shù),在某些任務中效果優(yōu)于傳統(tǒng)激活函數(shù)。
柚子快報激活碼778899分享:神經(jīng)網(wǎng)絡激活函數(shù)匯總
好文閱讀
本文內(nèi)容根據(jù)網(wǎng)絡資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權,聯(lián)系刪除。