柚子快報(bào)激活碼778899分享:數(shù)據(jù)挖掘 聚類與回歸
柚子快報(bào)激活碼778899分享:數(shù)據(jù)挖掘 聚類與回歸
聚類
聚類屬于非監(jiān)督式學(xué)習(xí)(無監(jiān)督學(xué)習(xí)),往往不知道因變量。
通過觀察學(xué)習(xí),將數(shù)據(jù)分割成多個(gè)簇。
回歸
回歸屬于監(jiān)督式學(xué)習(xí)(有監(jiān)督學(xué)習(xí)),知道因變量。
通過有標(biāo)簽樣本的學(xué)習(xí)分類器
聚類和回歸的區(qū)別
在數(shù)據(jù)分類過程中,我們可以直接知道回歸對(duì)應(yīng)的具體類別名,但是在聚類過程中,我們只能知道聚類對(duì)應(yīng)的類別與xxx是同一種類別。
比如:我們在使用分類處理一些水果時(shí),我們可以知道某一個(gè)水果具體是什么水果,但是聚類我們只能知道這個(gè)水果和其他的某些水果是同一種水果,但是我們卻不能知道具體的水果類型名是什么。
聚類的基本方法有三大類:
劃分方法(K均值、K-Means)
通過反復(fù)迭代,先隨機(jī)分配均值點(diǎn),?根據(jù)均值點(diǎn)形成聚簇,形成聚簇之后,再調(diào)整均值點(diǎn)。調(diào)整均值點(diǎn)后,再進(jìn)一步反復(fù)進(jìn)行迭代,最后找到我們相應(yīng)的聚簇。
層次方法(層次聚類法)
凝聚的(agglomeration)和分裂的(divisive)層次聚類圖示
層次聚類有兩種方法,一種是自底向上的方法,這種方法稱為凝聚法。另一種方法是自下而上的方法,該方法又稱為劃分的方法。
?凝聚法的過程:我們通過水來凝結(jié)成冰。首先根據(jù)數(shù)據(jù)進(jìn)行相似性計(jì)算,把相似的數(shù)據(jù)形成一個(gè)簇,形成了各種小簇,進(jìn)一步計(jì)算簇和簇之間的相似性,如果簇和簇之間的相似性更高,將他們合并形成更大的簇。從?向上凝聚,形成我們想要的一個(gè)聚簇的一個(gè)結(jié)束條件時(shí),得到我們想要的一個(gè)聚簇(層次聚類的結(jié)束條件有很多方法,比如從?向上進(jìn)行聚類時(shí),當(dāng)聚到第k個(gè)聚簇的時(shí)候,我們就停止迭代;另外一種,我們當(dāng)進(jìn)行迭代時(shí),我們數(shù)據(jù)的相似性足夠高,越往上走,聚簇和聚簇的相似性就會(huì)越來越低,當(dāng)相似性的閾值低到一定程度時(shí),就可以認(rèn)為我的一個(gè)層次聚類停止,如此一來就得到了相應(yīng)的聚簇,即為我們的層次聚類)
霍普金斯統(tǒng)計(jì)量
假如求出來的霍普金斯統(tǒng)計(jì)量數(shù)據(jù)接近1,這說明比較符合聚類的要求;若霍普金斯統(tǒng)計(jì)量接近0.5,則說明數(shù)據(jù)接近于均勻分布,不適合對(duì)其進(jìn)行?均勻分布。
聚類的大致流程:
1、通過計(jì)算霍普金斯統(tǒng)計(jì)量判斷數(shù)據(jù)質(zhì)量,判斷當(dāng)前數(shù)據(jù)是否需要聚類
2、通過使用一些方法,如:肘方法。來計(jì)算我們需要聚簇的k的數(shù)量。
3、在了解了k的數(shù)量以后,使用相應(yīng)的k均值,或者是層次聚類法進(jìn)行聚類
4、聚類結(jié)束后,對(duì)聚類的結(jié)果進(jìn)行評(píng)估,對(duì)于聚類的評(píng)估方法通常有兩種方法,一種是外在方法,類似于分類,需要有一個(gè)基準(zhǔn),用來評(píng)價(jià)聚類結(jié)果的準(zhǔn)確率;一種是內(nèi)在方法,通過我們的輪廓系數(shù),來評(píng)價(jià)聚類質(zhì)量的好壞。輪廓系數(shù)越接近1,聚類的效果就越好;第三種,聚類中常見的四種特征。
柚子快報(bào)激活碼778899分享:數(shù)據(jù)挖掘 聚類與回歸
相關(guān)閱讀
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。