柚子快報(bào)邀請(qǐng)碼778899分享:數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)
柚子快報(bào)邀請(qǐng)碼778899分享:數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)
一. 機(jī)器學(xué)習(xí)的種類
1. 有監(jiān)督的機(jī)器學(xué)習(xí) :
????????分類 :
?????????????????KNN 最近鄰???????????????? 邏輯回歸 - 樸素貝葉斯估計(jì)? ? ? ? ? ? ? ? ?SVM 線性 或 非線性 優(yōu)化模型?????????????????決策樹(shù)模型 - 隨機(jī)森林 - 其它集成模型?????????????????lightGBM - XGBOOST
????????回歸:
??????????????????線性?????????????????非線性? ? ? ? ? ? ? ? ?加權(quán)平均回歸
2.無(wú)監(jiān)督的機(jī)器學(xué)習(xí) :
???????????????? 聚類????????????????關(guān)聯(lián)????????????????特征處理
二.? KNN ( K最近鄰 )
argmax() # 只返回索引
特征值(Features):(特征數(shù)據(jù)必須是2維數(shù)據(jù)) ?特征值是用來(lái)描述樣本的屬性或特征的值。在KNN中,每個(gè)樣本都被表示為一個(gè)特征向量,其中每個(gè)特征對(duì)應(yīng)向量中的一個(gè)維度。例如,在一個(gè)二維空間中,特征向量可以由兩個(gè)特征值構(gòu)成,分別表示樣本在X軸和Y軸上的坐標(biāo)。 標(biāo)簽(Labels): 標(biāo)簽是我們希望預(yù)測(cè)的值,或者是我們希望將樣本分類到的類別。在分類問(wèn)題中,每個(gè)樣本都有一個(gè)類別標(biāo)簽,而在回歸問(wèn)題中,標(biāo)簽通常是一個(gè)連續(xù)的數(shù)值。在KNN中,我們使用已知的特征值和標(biāo)簽構(gòu)建模型,然后根據(jù)新的特征值預(yù)測(cè)或分類其對(duì)應(yīng)的標(biāo)簽。
np.bincount([1,1,2,2,2,2,4,4,4,4]) # 看下標(biāo)為幾的出現(xiàn)幾次
下標(biāo)為0的 沒(méi)有出現(xiàn) 0
下標(biāo)為1,數(shù)字也為1的出現(xiàn)2次
下標(biāo)為2 數(shù)字也為2的出現(xiàn)4次
下標(biāo)為3,數(shù)字為3 為0次
下標(biāo)為4,數(shù)字為3 為4次
答案是 (0,2,4,0,4)
三.? KNN運(yùn)用(字符識(shí)別、文本分類、圖像識(shí)別),通過(guò)你的鄰居判斷你是什么類別?
# 選幾個(gè)鄰居 進(jìn)行分類
sklearn.neighbors.KNeighborsClassfier(n_neighbors=5)
n_neighbors = 5 是默認(rèn)的
#獲取數(shù)據(jù)
x = [[1],[2],[0],[0]]
y = [1,1,0,0]
# 機(jī)器學(xué)習(xí)
# 1. 實(shí)例化一個(gè)訓(xùn)練模型
estimator = KNeighborsClassfier(n_neighbors=2)
2. 調(diào)用fit方法進(jìn)行訓(xùn)練
estimator.fit(x,y)
3. 預(yù)測(cè)其他值
ret = estimator.predict([-1])
print(ret)
四. K值的選取
K值過(guò)小: 過(guò)擬合,容易受異常點(diǎn)影響,?因?yàn)橛幂^小的領(lǐng)域中訓(xùn)練實(shí)例進(jìn)行預(yù)測(cè)k值過(guò)大 :? ?欠擬合,容易受到樣本均衡的問(wèn)題
柚子快報(bào)邀請(qǐng)碼778899分享:數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)
推薦文章
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。