柚子快報(bào)邀請(qǐng)碼778899分享：pandas的分箱操作

Akulaku跨境輕松購(gòu)綜合2025-05-05270

http://yzkb.51969.com/

在pandas中，分箱操作是指將連續(xù)的數(shù)值型數(shù)據(jù)按照一定的規(guī)則劃分為離散的箱子或區(qū)間，這有助于對(duì)數(shù)據(jù)進(jìn)行分析、可視化以及建立統(tǒng)計(jì)模型。

1、pd.cut()方法

這個(gè)函數(shù)可以根據(jù)指定的分箱邊界將數(shù)據(jù)劃分到不同的區(qū)間，可以指定分箱的邊界、標(biāo)簽、以及是否包括邊界。

pd.cut(bins,

right: bool = True,

labels=None,

retbins: bool = False,

precision: int = 3,

include_lowest: bool = False,

duplicates: str = "raise",

ordered: bool = True,)

bins,判斷的邊界right: bool = True,是否包含最右邊的邊界labels=None,判斷結(jié)果的標(biāo)簽retbins: bool = False,是否歸還bins，precision: int = 3,存儲(chǔ)和顯示箱子標(biāo)簽的精度。include_lowest: bool = False,第一個(gè)區(qū)間是否包含左區(qū)間duplicates: str = "raise",如果箱子的邊不是唯一的，拋出ValueError或刪除非唯一的邊。ordered: bool = True,

????????標(biāo)簽是否有序。應(yīng)用于返回類型

????????如果為true,得到的分類變量是有序的。

????????如果為False，則返回結(jié)果類別將是無(wú)序的(必須提供標(biāo)簽)。

import pandas as pd

import numpy as np

data=[0,60,70,90,100,110,20,30,40,50]

bins=[0,30,60,100]

lables=['Low','Medium','High']

print(pd.cut(data,bins=bins,labels=lables))

print(pd.cut(data,bins=bins,labels=lables,include_lowest=True))

2、 pd.qcut()方法

該函數(shù)根據(jù)數(shù)據(jù)的分位數(shù)來(lái)進(jìn)行分箱操作，可以保證每個(gè)箱子內(nèi)的數(shù)據(jù)數(shù)量大致相等。有助于創(chuàng)建等頻分箱。

pd.qcut(

labels=None,

retbins: bool = False,

precision: int = 3,

duplicates: str = "raise",)

參數(shù)

x：需要處理的數(shù)據(jù)，需要時(shí)一維數(shù)組或Seriesq：分位數(shù)，需要與labels數(shù)組長(zhǎng)度一致labels=None,數(shù)組或者為空（默認(rèn)為空），用作結(jié)果箱的標(biāo)簽，必須和一樣長(zhǎng)的結(jié)果箱，如果為False，則只返回的整數(shù)指示箱里。如果為True，則引發(fā)錯(cuò)誤。retbins: bool = False,是否返回binsprecision: int = 3,存儲(chǔ)和顯示箱子標(biāo)簽的精度duplicates: str = "raise",如果箱子的邊不是唯一的，拋出ValueError或刪除非唯一的邊。

import pandas as pd

import numpy as np

df=pd.DataFrame(np.random.randint(0,101,size=100),columns=['value'])

print(df)

df['level'],bins=pd.qcut(df['value'],q=4,labels=['low','medium','high','higher'],retbins=True)

print(df)

print(bins)

print(df['level'].value_counts())

修改后的df

bins以及value_counts

可以看到數(shù)據(jù)進(jìn)行劃分時(shí)的區(qū)間為：1-28.5、28.5- 50,50-73,73-99。根據(jù)value_counts可以看出每個(gè)分區(qū)數(shù)量是等頻的。

3、自定義分箱

我們可以自定義函數(shù)通過(guò)使用apple進(jìn)行自定義分箱。一下為例子

import pandas as pd

import numpy as np

s=pd.Series(np.random.randint(0,90,size=100),name='age')

def custom_age_binning(age):

if age<=30:

return 'young'

elif age<=60:

return 'middle-aged'

else:

return 'senior'

custom_bins=s.apply(custom_age_binning)

print(custom_bins)

分箱操作的作用

數(shù)據(jù)理解與可視化; 將連續(xù)數(shù)據(jù)分成幾個(gè)離散的箱子可以幫助我們更好地理解數(shù)據(jù)的分布情況。通過(guò)繪制分箱后的數(shù)據(jù)直方圖、柱狀圖等圖表，可以更清楚地看到數(shù)據(jù)的分布模式，有助于發(fā)現(xiàn)數(shù)據(jù)的特征和異常情況。特征工程;在機(jī)器學(xué)習(xí)和統(tǒng)計(jì)建模中，將連續(xù)數(shù)據(jù)分箱可以將數(shù)值型特征轉(zhuǎn)換為類別型特征，從而適應(yīng)某些模型的需求，或者提高模型的性能。例如，某些算法對(duì)類別型數(shù)據(jù)更為敏感，分箱后的特征可以提供更多信息。處理異常值: 將連續(xù)數(shù)據(jù)進(jìn)行分箱可以幫助處理異常值的影響。異常值可能會(huì)對(duì)分析和建模產(chǎn)生干擾，通過(guò)將數(shù)據(jù)分箱，可以將異常值分到合適的區(qū)間中，減少其影響。降低模型復(fù)雜性; 在一些情況下，使用連續(xù)數(shù)據(jù)可能會(huì)導(dǎo)致模型過(guò)于復(fù)雜，容易過(guò)擬合。分箱可以降低模型的復(fù)雜性，使模型更具有泛化能力。缺失值處理: 在分箱過(guò)程中，你可以將缺失值劃分到一個(gè)單獨(dú)的箱子中，從而對(duì)缺失值進(jìn)行特殊處理，而不是直接刪除或填充缺失值。解決線性關(guān)系的問(wèn)題:有時(shí)候數(shù)據(jù)之間的關(guān)系可能不是線性的，通過(guò)分箱可以在一定程度上捕捉非線性的關(guān)系，使建模更加準(zhǔn)確。滿足業(yè)務(wù)需求;在實(shí)際業(yè)務(wù)中，可能需要將連續(xù)數(shù)據(jù)劃分成具有業(yè)務(wù)意義的區(qū)間，以滿足特定的業(yè)務(wù)需求。例如，將年齡數(shù)據(jù)劃分成不同的年齡段，以便更好地理解不同年齡段的特點(diǎn)。

總之，分箱操作可以幫助我們更好地理解數(shù)據(jù)、提取特征、處理異常值和滿足業(yè)務(wù)需求，從而為數(shù)據(jù)分析和建模提供更多的靈活性和可解釋性。

柚子快報(bào)邀請(qǐng)碼778899分享：pandas的分箱操作

http://yzkb.51969.com/

文章來(lái)源

評(píng)論可見(jiàn)，查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理，出于傳遞更多信息之目的，不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。

轉(zhuǎn)載請(qǐng)注明，如有侵權(quán)，聯(lián)系刪除。

本文鏈接：http://m.gantiao.com.cn/post/19586855.html

發(fā)布評(píng)論

取消回復(fù)

您暫未設(shè)置收款碼

請(qǐng)?jiān)谥黝}配置——文章設(shè)置里上傳

金鑰匙跨境

掃描二維碼手機(jī)訪問(wèn)

文章目錄

<blockquote id="mk5bt"><span id="mk5bt"></span></blockquote>

欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

柚子快報(bào)邀請(qǐng)碼778899分享：pandas的分箱操作

隨便看看

特朗普要求美國(guó)最高法院暫停執(zhí)行TikTok強(qiáng)制出售令

最新留言

您暫未設(shè)置收款碼