柚子快報邀請碼778899分享:人工智能 神經(jīng)網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)
柚子快報邀請碼778899分享:人工智能 神經(jīng)網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)
《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》
第一章 緒論1.1 人工智能知識結(jié)構(gòu)預(yù)備知識頂會論文常用的深度學(xué)習(xí)框架研究領(lǐng)域
1.2 如何開發(fā)AIS芒果機(jī)器學(xué)習(xí)
1.3 表示學(xué)習(xí)局部表示和分布式表示
1.4 深度學(xué)習(xí)(Deep Learning)1.5 人腦神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)發(fā)展史
第二章 機(jī)器學(xué)習(xí)概述2.1 基本概念2.2 機(jī)器學(xué)習(xí)定義2.3 機(jī)器學(xué)習(xí)類型2.4 機(jī)器學(xué)習(xí)的要素2.4.1 模型2.4.2 學(xué)習(xí)準(zhǔn)則2.4.3 優(yōu)化算法
第一章 緒論
1.1 人工智能
人工智能的一個子領(lǐng)域
神經(jīng)網(wǎng)絡(luò):一種以(人工)神經(jīng)元為基本單元的模型深度學(xué)習(xí):一種機(jī)器學(xué)習(xí)問題,主要解決貢獻(xiàn)度分配問題
知識結(jié)構(gòu)
知識結(jié)構(gòu)圖 路線圖
預(yù)備知識
線性代數(shù)微積分?jǐn)?shù)學(xué)優(yōu)化概率論信息論
頂會論文
NeurIPS、ICLR、ICML、AAAL、IJCALACL、EMNLPCVPR、ICCV
常用的深度學(xué)習(xí)框架
簡易快速的原型設(shè)計(jì)自動梯度計(jì)算無縫CPU和GPU切換分布式計(jì)算PYTORCH、TensorFlow
研究領(lǐng)域
機(jī)器感知(計(jì)算機(jī)視覺、語音信息處理、模式識別)學(xué)習(xí)(機(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí))語言(自然語言處理)記憶(知識表示)決策(規(guī)劃、數(shù)據(jù)挖掘)
1.2 如何開發(fā)AIS
學(xué)習(xí)規(guī)則(rule) 機(jī)器學(xué)習(xí)=構(gòu)建一個映射函數(shù)
芒果機(jī)器學(xué)習(xí)
準(zhǔn)備數(shù)據(jù)學(xué)習(xí)(相關(guān)性模型)測試
1.3 表示學(xué)習(xí)
機(jī)器學(xué)習(xí)的一般流程: 語義鴻溝:AI的挑戰(zhàn)之一
底層特征VS高層語義核心問題:“什么是一個好的表示”,“如何學(xué)習(xí)好的表示”特征提?。夯谌蝿?wù)或先驗(yàn)對去除無用特征表示學(xué)習(xí):通過深度模型學(xué)習(xí)高層語義特征
局部表示和分布式表示
局部表示:離散表示、符號表示分布式表示:壓縮、低維、稠密向量
1.4 深度學(xué)習(xí)(Deep Learning)
深度學(xué)習(xí)=表示學(xué)習(xí)+決策(預(yù)測)學(xué)習(xí) 深度學(xué)習(xí)的數(shù)學(xué)描述
1.5 人腦神經(jīng)網(wǎng)絡(luò)
人類大腦是人體最復(fù)雜的器官,由神經(jīng)元、神經(jīng)膠質(zhì)細(xì)胞、神經(jīng)干細(xì)胞和血管組成。
那么如何構(gòu)造一個人工神經(jīng)元呢?為此我們建立數(shù)學(xué)模型如下: 這里不同節(jié)點(diǎn)之間的連接被賦予了不同的權(quán)重,每個權(quán)重代表了一個節(jié)點(diǎn)對另一個節(jié)點(diǎn)的影響大小。每個節(jié)點(diǎn)代表一種特定函數(shù),來自其他節(jié)點(diǎn)的信息經(jīng)過其相對應(yīng)的權(quán)重綜合計(jì)算,輸入到一個激活函數(shù)中并得到一個新的活性值(興奮或者抑制)。從系統(tǒng)觀點(diǎn)來看,,人工神經(jīng)元網(wǎng)絡(luò)是由大量神經(jīng)元通過極其豐富和完善的連接而構(gòu)成的自適應(yīng)非線性動態(tài)系統(tǒng)。
人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)主要由大量的神經(jīng)元以及它們之間的有線連接構(gòu)成。因此考慮三方面:
神經(jīng)元的激活規(guī)則:主要是指神經(jīng)元輸入到輸出之間的映射關(guān)系,一般為非線性函數(shù)。網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu):不同神經(jīng)元之間的連接關(guān)系。學(xué)習(xí)算法:通過訓(xùn)練數(shù)據(jù)來學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的參數(shù)。
雖然將神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)大體分為三種類型,但是·大多數(shù)網(wǎng)絡(luò)都是復(fù)合型結(jié)構(gòu)。即一個神經(jīng)網(wǎng)絡(luò)包括多種網(wǎng)絡(luò)結(jié)構(gòu)。 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)之間的對應(yīng)關(guān)系(隱藏層=f) 那么如何解決貢獻(xiàn)度分配問題?
神經(jīng)網(wǎng)絡(luò)發(fā)展史
五個階段
第一階段:模型提出第二階段:冰河期第三階段:反向傳播算法引起的復(fù)興第四階段:流行度降低第五階段:深度學(xué)習(xí)的興起
第二章 機(jī)器學(xué)習(xí)概述
2.1 基本概念
一些概率論的知識,此處略過。
2.2 機(jī)器學(xué)習(xí)定義
機(jī)器學(xué)習(xí):通過算法使得機(jī)器能從大量數(shù)據(jù)中學(xué)習(xí)規(guī)律從而對新的樣本做決策。 規(guī)律:決策(預(yù)測)函數(shù)
2.3 機(jī)器學(xué)習(xí)類型
回歸(Regression)問題:電影票房預(yù)測,股價預(yù)測,房價預(yù)測 分類(Classification)問題:手寫數(shù)字識別,人臉檢測(Face Detection),垃圾郵件檢測(Spam Detection) 聚類問題:圖像聚類(Clustering Images) 強(qiáng)化學(xué)習(xí):AlphaGo,不斷試錯 典型的監(jiān)督學(xué)習(xí)問題:回歸、分類 無監(jiān)督學(xué)習(xí)問題:聚類、降維、密度估計(jì) 總結(jié):常見的機(jī)器學(xué)習(xí)類型
2.4 機(jī)器學(xué)習(xí)的要素
四個要素:數(shù)據(jù)、模型、學(xué)習(xí)準(zhǔn)則、優(yōu)化算法
2.4.1 模型
回歸(Regression)
2.4.2 學(xué)習(xí)準(zhǔn)則
一個好的模型應(yīng)該在所有取值上都與真實(shí)映射函數(shù)一致
∣
f
(
x
,
θ
?
)
?
y
∣
<
ε
,
?
(
x
,
y
)
∈
X
×
y
\left|f\left(\boldsymbol{x}, \theta^{*}\right)-y\right|<\varepsilon, \quad \forall(\boldsymbol{x}, y) \in X \times y
∣f(x,θ?)?y∣<ε,?(x,y)∈X×y 損失函數(shù)(Loss Function):損失函數(shù)是一個非負(fù)實(shí)數(shù)函數(shù),用來量化模型預(yù)測和真實(shí)標(biāo)簽之間的差異 以回歸問題為例 -平方損失函數(shù)(Quadratic Loss Function)
L
(
y
,
f
(
x
;
θ
)
)
=
1
2
(
y
?
f
(
x
;
θ
)
)
2
\mathcal{L}({y}, {f(\boldsymbol{x} ; \theta)})=\frac{1}{2}({y-f(\boldsymbol{x} ; \theta)})^{2}
L(y,f(x;θ))=21?(y?f(x;θ))2 期望風(fēng)險:可以近似為 訓(xùn)練數(shù)據(jù):
:
{
(
x
(
n
)
,
y
(
n
)
)
}
n
=
1
N
:\left\{\left(\boldsymbol{x}^{(n)}, y^{(n)}\right)\right\}_{n=1}^{N}
:{(x(n),y(n))}n=1N? 經(jīng)驗(yàn)風(fēng)險:
R
D
e
m
p
(
θ
)
=
1
N
∑
n
=
1
N
L
(
y
(
n
)
,
f
(
x
(
n
)
;
θ
)
)
\mathcal{R}_{\mathcal{D}}^{e m p}(\theta)=\frac{1}{N} \sum_{n=1}^{N} \mathcal{L}\left(y^{(n)}, f\left(\boldsymbol{x}^{(n)} ; \theta\right)\right)
RDemp?(θ)=N1?∑n=1N?L(y(n),f(x(n);θ)) 經(jīng)驗(yàn)風(fēng)險最小化:尋找一個參數(shù)
θ
?
\theta^*
θ?,使得風(fēng)險函數(shù)最小化
θ
?
=
arg
?
min
?
θ
R
D
e
m
p
(
θ
)
\theta^{*}=\underset{\theta}{\arg \min } \mathcal{R}_{\mathcal{D}}^{e m p}(\theta)
θ?=θargmin?RDemp?(θ) 機(jī)器學(xué)習(xí)問題轉(zhuǎn)化為一個最優(yōu)化問題! 最優(yōu)化問題 凸優(yōu)化:極值點(diǎn)處有極值; 非凸優(yōu)化問題:較為困難,使用一些優(yōu)化算法.
2.4.3 優(yōu)化算法
梯度下降法(Gradient Descent)
在機(jī)器學(xué)習(xí)中,最簡單、最常用的優(yōu)化算法就是梯度下降法。即首先初始化參數(shù)
θ
\theta
θ ,然后按照下面的迭代方式來計(jì)算訓(xùn)練集
D
{\mathcal{D}}
D上風(fēng)險函數(shù)的最小值:
θ
t
+
1
=
θ
t
?
α
?
R
D
(
θ
)
?
θ
=
θ
t
?
α
1
N
∑
n
=
1
N
?
L
(
y
(
n
)
,
f
(
x
(
n
)
;
θ
)
)
?
θ
,
\begin{aligned} \theta_{t+1} & =\theta_{t}-\alpha \frac{\partial \mathcal{R}_{\mathcal{D}}(\theta)}{\partial \theta} \\ & =\theta_{t}-\alpha \frac{1}{N} \sum_{n=1}^{N} \frac{\partial \mathcal{L}\left(y^{(n)}, f\left(\boldsymbol{x}^{(n)} ; \theta\right)\right)}{\partial \theta},\end{aligned}
θt+1??=θt??α?θ?RD?(θ)?=θt??αN1?n=1∑N??θ?L(y(n),f(x(n);θ))?,?
其中
θ
t
\theta_t
θt?為第
t
t
t次迭代時的參數(shù)值,
α
\alpha
α為搜素步長.在機(jī)器學(xué)習(xí)中,
α
\alpha
α一般稱為學(xué)習(xí)率(Learning Rate)
學(xué)習(xí)率是十分重要的超參數(shù)!
如果學(xué)習(xí)率太大,如最右邊的圖。在優(yōu)化過程中,會跨越最低點(diǎn),導(dǎo)致無法準(zhǔn)確找到最值點(diǎn)。 如果學(xué)習(xí)率太小,損失下降比較慢,學(xué)習(xí)效率較低。 比較期望中間的學(xué)習(xí)率,叫做自適應(yīng)學(xué)習(xí)率。
隨機(jī)梯度下降法(SGD)
在機(jī)器學(xué)習(xí)中,我們假設(shè)每個樣本都是獨(dú)立同分布地從真實(shí)數(shù)據(jù)分布中隨機(jī)抽取出來的,真正的優(yōu)化目標(biāo)是期望風(fēng)險最小。批量梯度下降法相當(dāng)于是從真實(shí)數(shù)據(jù)中采集N個樣本,并由它們計(jì)算出來的經(jīng)驗(yàn)風(fēng)險的梯度來近似期望風(fēng)險的梯度,為了減少每次迭代的計(jì)算復(fù)雜度,我們也可以在每次迭代是只采集一個樣本,計(jì)算這個樣本損失函數(shù)的梯度并更新參數(shù)。即隨機(jī)梯度下降法。當(dāng)經(jīng)過族規(guī)次數(shù)的迭代時,隨機(jī)梯度下降也可以收斂到局部最優(yōu)解。
隨機(jī)梯度下降法的訓(xùn)練過程如下面的算法所示: 優(yōu)點(diǎn):每次計(jì)算開銷小,支持在線學(xué)習(xí) 缺點(diǎn):無法充分利用計(jì)算機(jī)的并行計(jì)算能力
小批量隨機(jī)梯度下降法
小批量梯度下降法是批量梯度下降和隨機(jī)梯度下降的這種.每次迭代時,我們隨機(jī)選取一部分訓(xùn)練樣本來計(jì)算梯度并更新參數(shù),這樣既可以兼顧隨機(jī)梯度下降法的優(yōu)點(diǎn),也可以提高訓(xùn)練效率。
第t次迭代時,隨機(jī)選取一個包含K個樣本的子集
S
t
S_t
St?,計(jì)算這個子集上每個樣本損失函數(shù)的梯度并進(jìn)行平均,然后再進(jìn)行參數(shù)更新:
θ
t
+
1
←
θ
t
?
α
1
K
∑
(
x
,
y
)
∈
S
t
?
L
(
y
,
f
(
x
;
θ
)
)
?
θ
\theta_{t+1} \leftarrow \theta_{t}-\alpha \frac{1}{K} \sum_{(\boldsymbol{x}, y) \in S_{t}} \frac{\partial \mathcal{L}(y, f(\boldsymbol{x} ; \theta))}{\partial \theta}
θt+1?←θt??αK1?∑(x,y)∈St???θ?L(y,f(x;θ))?.
在實(shí)際應(yīng)用中,小批量隨機(jī)梯度下降法有收斂快、計(jì)算開銷小的優(yōu)點(diǎn),因此逐漸成為大規(guī)模機(jī)器學(xué)習(xí)中的主要優(yōu)化算法。
柚子快報邀請碼778899分享:人工智能 神經(jīng)網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)
相關(guān)閱讀
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。