柚子快報(bào)邀請碼778899分享:機(jī)器學(xué)習(xí)概述
柚子快報(bào)邀請碼778899分享:機(jī)器學(xué)習(xí)概述
一、什么是機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)是一種人工智能技術(shù),通過對數(shù)據(jù)的學(xué)習(xí)和分析,讓計(jì)算機(jī)系統(tǒng)自動(dòng)提高其性能。簡而言之,機(jī)器學(xué)習(xí)是一種從數(shù)據(jù)中學(xué)習(xí)規(guī)律和模式的方法,通過數(shù)據(jù)來預(yù)測、分類或者決策。
二、機(jī)器學(xué)習(xí)的工作原理
機(jī)器學(xué)習(xí)的工作原理主要包括以下幾個(gè)步驟:
數(shù)據(jù)收集:首先需要收集數(shù)據(jù)并將其轉(zhuǎn)化為可以計(jì)算的形式,例如數(shù)值、文本或圖像等。 數(shù)據(jù)預(yù)處理:數(shù)據(jù)收集后,需要對數(shù)據(jù)進(jìn)行清洗、去除異常值、缺失值處理、特征選擇等預(yù)處理步驟。 特征工程: 是指在機(jī)器學(xué)習(xí)中對原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換、組合和選擇等處理,以提取更有用的特征或?qū)傩?,以幫助機(jī)器學(xué)習(xí)算法更好地理解和處理數(shù)據(jù)。簡而言之,特征工程就是對原始數(shù)據(jù)進(jìn)行預(yù)處理,以提取有用信息來輔助機(jī)器學(xué)習(xí)。 模型選擇:根據(jù)問題的特點(diǎn)和數(shù)據(jù)的特征選擇適合的機(jī)器學(xué)習(xí)算法和模型。 模型訓(xùn)練(機(jī)器學(xué)習(xí)):利用已有數(shù)據(jù)對所選的機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,從而使模型能夠?qū)W習(xí)數(shù)據(jù)中的規(guī)律和模式。 模型評估:訓(xùn)練完成后,需要對模型進(jìn)行評估和調(diào)整,以檢查其性能和精度,并進(jìn)行優(yōu)化。 模型應(yīng)用:經(jīng)過訓(xùn)練和優(yōu)化后,機(jī)器學(xué)習(xí)模型可以用于新數(shù)據(jù)的預(yù)測、分類、聚類等任務(wù)。
三、數(shù)據(jù)簡介
數(shù)據(jù)簡介 在數(shù)據(jù)集中一般:
一行數(shù)據(jù)我們稱為一個(gè)樣本一列數(shù)據(jù)我們稱為一個(gè)特征有些數(shù)據(jù)有目標(biāo)值(標(biāo)簽值),有些數(shù)據(jù)沒有標(biāo)簽值 數(shù)據(jù)類型構(gòu)成
數(shù)據(jù)類型一:特征值+目標(biāo)值(目標(biāo)值是連續(xù)的和離散的)數(shù)據(jù)類型二:只有特征值,沒有目標(biāo)值 數(shù)據(jù)分割
機(jī)器學(xué)習(xí)一般的數(shù)據(jù)集會(huì)劃分為兩個(gè)部分:
訓(xùn)練數(shù)據(jù):用于訓(xùn)練,構(gòu)建模型測試數(shù)據(jù):在模型檢驗(yàn)時(shí)使用,用于評估模型是否有效 劃分比例:
訓(xùn)練集:70% 80% 75%測試集:30% 20% 25%
四、特征工程
什么是特征工程 是指在機(jī)器學(xué)習(xí)中對原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換、組合和選擇等處理,以提取更有用的特征或?qū)傩裕詭椭鷻C(jī)器學(xué)習(xí)算法更好地理解和處理數(shù)據(jù)。簡而言之,特征工程就是對原始數(shù)據(jù)進(jìn)行預(yù)處理,以提取有用信息來輔助機(jī)器學(xué)習(xí)。 為什么要用到特征工程 特征工程是機(jī)器學(xué)習(xí)中非常重要的一環(huán),因?yàn)楹玫奶卣髂軌蛱岣咚惴ǖ木群托?,甚至決定了機(jī)器學(xué)習(xí)模型的上限。因此,進(jìn)行特征工程需要根據(jù)具體問題和數(shù)據(jù)特點(diǎn)進(jìn)行靈活選擇和處理,以達(dá)到最佳效果。 特征工程包含的內(nèi)容
特征提取:從原始數(shù)據(jù)中提取特征,通常是利用數(shù)學(xué)和統(tǒng)計(jì)方法對數(shù)據(jù)進(jìn)行轉(zhuǎn)換和降維,例如主成分分析(PCA)、奇異值分解(SVD)等。特征轉(zhuǎn)換(特征預(yù)處理):將提取的特征進(jìn)行轉(zhuǎn)換,以符合算法的需求,例如將類別特征轉(zhuǎn)換為數(shù)值特征,或者對數(shù)值特征進(jìn)行標(biāo)準(zhǔn)化。特征降維:指在某些限定條件下,降低隨機(jī)變量(特征)個(gè)數(shù),得到一組“不相關(guān)”主變量的過程特征選擇:根據(jù)特征的重要性和相關(guān)性等指標(biāo),選擇最具有代表性的特征,以減少計(jì)算復(fù)雜度和提高算法性能。
五、機(jī)器學(xué)習(xí)算法分類
監(jiān)督學(xué)習(xí) 輸入數(shù)據(jù)是由輸入特征值和目標(biāo)值所組成。函數(shù)的輸出可以是一個(gè)連續(xù)的值(稱為回歸),或是輸出有限個(gè)離散值(稱為分類)
回歸問題 例如:預(yù)測房價(jià),根據(jù)集擬合出一條連續(xù)曲線 分類問題 例如:根據(jù)腫瘤特征判斷良性還是惡性,得到的是結(jié)果是“良性”或者“惡性”,是離散的 無監(jiān)督學(xué)習(xí) 輸入數(shù)據(jù)是由輸入特征值組成,沒有目標(biāo)值。輸入數(shù)據(jù)沒有被標(biāo)記,也沒有確定的結(jié)果,樣本數(shù)據(jù)類別未知;需要根據(jù)樣本間的相似性對樣本集進(jìn)行類別劃分。
有監(jiān)督,無監(jiān)督算法對比: 半監(jiān)督學(xué)習(xí) 訓(xùn)練集同時(shí)包含有標(biāo)記樣本數(shù)據(jù)和未標(biāo)記樣本數(shù)據(jù)
監(jiān)督學(xué)習(xí)訓(xùn)練方式和半監(jiān)督學(xué)習(xí)訓(xùn)練方式的區(qū)別:
數(shù)據(jù)量不同:監(jiān)督學(xué)習(xí)需要大量有標(biāo)簽的數(shù)據(jù)來進(jìn)行訓(xùn)練,而半監(jiān)督學(xué)習(xí)則可以利用部分有標(biāo)簽數(shù)據(jù)和大量無標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練。模型的預(yù)測能力:監(jiān)督學(xué)習(xí)的模型在處理未知數(shù)據(jù)時(shí)需要有標(biāo)簽的數(shù)據(jù)作為參考,而半監(jiān)督學(xué)習(xí)的模型可以更好地利用未標(biāo)記數(shù)據(jù)來提高預(yù)測能力。訓(xùn)練時(shí)間:由于半監(jiān)督學(xué)習(xí)使用了更多的數(shù)據(jù)進(jìn)行訓(xùn)練,因此需要更長的時(shí)間來完成模型的訓(xùn)練。精度:半監(jiān)督學(xué)習(xí)的模型在某些情況下可以比監(jiān)督學(xué)習(xí)的模型具有更好的精度,尤其是當(dāng)標(biāo)記數(shù)據(jù)很少的時(shí)候。應(yīng)用場景:監(jiān)督學(xué)習(xí)適用于已經(jīng)有標(biāo)簽數(shù)據(jù)的問題,例如分類和回歸等問題,而半監(jiān)督學(xué)習(xí)適用于數(shù)據(jù)集標(biāo)簽數(shù)量較少或標(biāo)簽數(shù)據(jù)難以獲得的問題。 強(qiáng)化學(xué)習(xí) 實(shí)質(zhì)就是make decisions問題,即自動(dòng)進(jìn)行決策,并且可以做連續(xù)決策。強(qiáng)化學(xué)習(xí)的的目標(biāo)就是獲得最多的累計(jì)獎(jiǎng)勵(lì)。
強(qiáng)化學(xué)習(xí)的五個(gè)元素: agent、action、reward、environment、observation 監(jiān)督學(xué)習(xí)的強(qiáng)化學(xué)習(xí)的對比: 四種學(xué)習(xí)算法的小結(jié)
六、模型評估
模型評估是模型開發(fā)過程不可或缺的一部分。它有助于發(fā)現(xiàn)表達(dá)數(shù)據(jù)的最佳模型和所選模型將來工作的性能如何。
按照數(shù)據(jù)集的目標(biāo)值不同,可以把模型評估分為分類模型評估和回歸模型評估。
分類模型評估 例如:腫瘤良性、惡性預(yù)測模型
準(zhǔn)確率: 預(yù)測正確的數(shù)占樣本總數(shù)的比例。 其他評價(jià)指標(biāo): 精確率、召回率、F1-score、AUC指標(biāo)等。 回歸模型評估 例如:房價(jià)預(yù)測模型
均方根誤差(Root Mean Squared Error,RMSE) RMSE是一個(gè)衡量回歸模型誤差率的常用公式。不過,它僅能比較誤差是相同單位的模型。 均方根誤差公式 舉例: 假設(shè)有一個(gè)房價(jià)預(yù)測模型,只有五個(gè)樣本,對應(yīng)的 真實(shí)值為:100,120,125,230,400 預(yù)測值為:105,119,120,230,410 則均方根誤差求解得:
R
M
S
E
=
[
(
105
?
100
)
2
+
(
119
?
120
)
2
+
(
120
?
125
)
2
+
(
230
?
230
)
2
+
(
410
?
400
)
2
]
5
2
=
5.495
RMSE=\sqrt[2]{\frac{[(105-100)^2+(119-120)^2+(120-125)^2+(230-230)^2+(410-400)^2]}{5}}=5.495
RMSE=25[(105?100)2+(119?120)2+(120?125)2+(230?230)2+(410?400)2]?
?=5.495 擬合 模型評估用于評價(jià)訓(xùn)練好的模型的表現(xiàn)效果,其表現(xiàn)效果大致可以分為兩類:過擬合、欠擬合。
欠擬合(under-fitting):模型學(xué)習(xí)的太過粗糙,在訓(xùn)練集中的樣本數(shù)據(jù)特征關(guān)系都沒有學(xué)出來。過擬合(over-fitting):所建的機(jī)器學(xué)習(xí)模型或者是深度學(xué)習(xí)模型在訓(xùn)練樣本中表現(xiàn)得過于優(yōu)越,導(dǎo)致在測試數(shù)據(jù)集中表現(xiàn)不佳。
柚子快報(bào)邀請碼778899分享:機(jī)器學(xué)習(xí)概述
推薦閱讀
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。