亞馬遜商品畫像數(shù)據(jù)的抓取方法——人工采集
人工采集,顧名思義就是運營者通過基本的“復(fù)制粘貼”方式去亞馬遜平臺上采集數(shù)據(jù),其一般應(yīng)用于亞馬遜搜索曝光頁數(shù)據(jù)和商品詳情頁數(shù)據(jù)。
人工采集的優(yōu)點是無技術(shù)門檻,靈活方便,缺點是效率低下。
一般而言,人工采集單個數(shù)據(jù)的時間為5秒(將亞馬遜平臺上的數(shù)據(jù)復(fù)制粘貼到表格或者數(shù)據(jù)庫中的時間),一個正常工作8小時的運營者一天能分配的有效數(shù)據(jù)采集時間為 0.5~1小時,取中間值45分鐘,那么一天的有效采集數(shù)據(jù)量為540個數(shù)據(jù)。
如果一個商品需要采集3個維度的數(shù)據(jù),例如review數(shù)量+排名+價格,那么540-3=180,即一個運營者一天可以有效跟蹤與采集180個商品的數(shù)據(jù)。
如果運營者想要提升單日的人工采集效率,筆者有如下兩條建議。
1.明確數(shù)據(jù)采集的目的,從而通過減少數(shù)據(jù)采集的頻次,最終提升采集效率。
例如,如果運營者想要了解一個搜索關(guān)鍵詞下不同商品的銷量分布規(guī)律,即可通過人工采集搜索曝光頁前500~1000個商品的銷售排名數(shù)據(jù)來進行估算,而無須采集其他維度的數(shù)據(jù),也沒有必要每天采集一次數(shù)據(jù)( 因為一個品類/關(guān)鍵詞下的銷量分布并不會在短時間內(nèi)發(fā)生變化),這樣就可以提升數(shù)據(jù)采集的效率。
2.在難以實現(xiàn)數(shù)據(jù)全面采集時,可以使用抽樣采集的方法來提升采集效率。
例如,如果運營者想要分析某搜索關(guān)鍵詞下前100頁商品的review、排名、價格的分布規(guī)律,但是自身既沒有能力與資金開發(fā)爬蟲程序,也沒有找到合適的工具或者第三方采集器,這時就可以使用抽樣采集的方法。
在該案例下,運營者可以將前100頁的商品設(shè)定為100個組,設(shè)每頁有48個商品,可以分別抽取每組的第8個、第16個、第24個第32個、第40個、第48個的商品,那么每個組就只需采集6次,總共6x100=600次,考慮到每次采集涉及review、排名、價格3個維度,那么總共采集的數(shù)據(jù)量為600x 3=1800個。
如果一個數(shù)據(jù)的采集時間為5秒,那么總采集時間約為2.5小時,1周內(nèi)即可完成所有數(shù)據(jù)采集。
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。