柚子快報邀請碼778899分享:Pandas | value
柚子快報邀請碼778899分享:Pandas | value
value_counts()?函數(shù)得作用
用來統(tǒng)計數(shù)據(jù)表中,指定列里有多少個不同的數(shù)據(jù)值,并計算每個不同值有在該列中的個數(shù),同時還能根據(jù)指定得參數(shù)返回排序后結(jié)果。 返回得是Series對象
value_counts(values,sort=True, ascending=False, normalize=False,bins=None,dropna=True)
sort=True: 是否要進(jìn)行排序;默認(rèn)進(jìn)行排序 ascending=False: 默認(rèn)降序排列; normalize=False: 是否要對計算結(jié)果進(jìn)行標(biāo)準(zhǔn)化并顯示標(biāo)準(zhǔn)化后的結(jié)果,默認(rèn)是False。 bins=None: 可以自定義分組區(qū)間,默認(rèn)是否 dropna=True:是否刪除缺失值nan,默認(rèn)刪除
數(shù)據(jù)集:
要求:統(tǒng)計不同lable出現(xiàn)得次數(shù)
任何參數(shù)都不帶
train_df['label'].value_counts()?
ascending=True
normalize=True 數(shù)據(jù)標(biāo)準(zhǔn)化:在多指標(biāo)評價體系中,由于各評價指標(biāo)的性質(zhì)不同,通常具有不同的量綱和數(shù)量級。當(dāng)各指標(biāo)間的水平相差很大時,如果直接用原始指標(biāo)值進(jìn)行分析,就會突出數(shù)值較高的指標(biāo)在綜合分析中的作用,相對削弱數(shù)值水平較低指標(biāo)的作用。因此,為了保證結(jié)果的可靠性,需要對原始指標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。 數(shù)據(jù)的標(biāo)準(zhǔn)化(normalization)是將數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間。在某些比較和評價的指標(biāo)處理中經(jīng)常會用到,去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值,便于不同單位或量級的指標(biāo)能夠進(jìn)行比較和加權(quán)。
train_df['label'].value_counts(ascending=False,normalize=True)? ?
數(shù)據(jù)標(biāo)準(zhǔn)化以后,所有得項得和為1(可能因為計算機(jī)存儲數(shù)據(jù)而有誤差) 常用來計算各數(shù)據(jù)占的比例
bins分組統(tǒng)計 對于數(shù)值型的可以進(jìn)行分組,分組以后返回結(jié)果
幾種使用方式
先取出列(Series對象),然后調(diào)用函數(shù)這時候相當(dāng)于train_df['label'].value_counts()?
DataFrame對每一列都進(jìn)行統(tǒng)計train_df.apply(pd.value_counts) ? ?直接使用Pandas調(diào)用pd.value_counts(train_df['label'],ascending=True) ?
同樣的統(tǒng)計還可以使用?groupby,這個的過程是先按‘label’分組然后再統(tǒng)計每組的值,這樣的效率較低,不建議使用
train_df.groupby('label').count() ?
柚子快報邀請碼778899分享:Pandas | value
好文閱讀
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。