數(shù)據(jù)清洗及有效數(shù)據(jù)篩選
在進行數(shù)據(jù)分析前,運營者需要對收集到的數(shù)據(jù)集進行數(shù)據(jù)清洗工作,否則數(shù)據(jù)分析的結果將會因為異常值的存在而產(chǎn)生誤差。
以“商品畫像”Excel文件中的數(shù)據(jù)為例,運營者可以通過 Excel的“篩選”功能查看各個維度的數(shù)據(jù)是否存在異常值。
其操作步驟為:打開“商品畫像”Excel表格,選擇第一行數(shù)據(jù),在菜單欄中選擇“開始”選項卡,然后單擊“排序和篩選”下拉按鈕,在彈出的下拉菜單中選擇“篩選”選項。
當 Excel操作界面產(chǎn)生“篩選”的功能符號(一個小的向下的箭頭)后,運營者可以單擊各個維度數(shù)據(jù)的“篩選”符號,從而查看該維度數(shù)據(jù)是否存在異常值。
以“評分數(shù)量”為例,當單擊“篩選”符號后,運營者會發(fā)現(xiàn)該維度數(shù)據(jù)存在“-1”的異常值,這類異常值是因為Python爬蟲腳本在抓取數(shù)據(jù)時無法完成抓取導致的。
一般而言,異常值在總數(shù)據(jù)量的5%以內(nèi)都不會影響數(shù)據(jù)分析的精準度,當運營者通過上述步驟篩選“評分數(shù)量”的異常值時,可以發(fā)現(xiàn)一共有23個異常值(Excel顯示有24行,但是因為第一行是數(shù)據(jù)維度名稱,所以總計異常值為24-1=23個)。
運營者可以重復上述步驟,將各個維度的異常值逐一進行刪除即可。
需要注意的是在對排名維度進行異常值處理時,只需對“Clothing,Shoes & Jewelry”維度進行處理而不需要對“Women’s Shops”維度進行處理,這是因為后者相比于前者屬于小類排名存在部分商品屬于大類而不屬小類的情況。
因此,在進行前期的數(shù)據(jù)清洗時,只需關注大類排名的數(shù)據(jù)即可。
當對“評分數(shù)量”“曝光價格”“商品價格范圍(最低價 )”“商品價格范圍(最高價)”“Clothing,Shoes & Jewelry”這5個維度中的異常數(shù)據(jù)進行清洗后,可以獲得最終數(shù)據(jù),將清洗后的數(shù)據(jù)保存在名為“清洗后的商品畫像數(shù)據(jù)”Excel文件中。
隨意單擊該數(shù)據(jù)表格中的一列,可以發(fā)現(xiàn)該數(shù)據(jù)集包含18 660個ASIN的數(shù)據(jù),相比于19152的原始數(shù)據(jù),一共有492個帶有異常值的ASIN被刪除了。
當完成了一系列數(shù)據(jù)清洗的步驟后,即可開始進行數(shù)據(jù)分析。
本文內(nèi)容根據(jù)網(wǎng)絡資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉載請注明,如有侵權,聯(lián)系刪除。