利用網(wǎng)站自身提供的應(yīng)用程序編程接口(Application Programming Interface,API)實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)采集即調(diào)用網(wǎng)站 API,可以很好地解決數(shù)據(jù)針對(duì)性的問題。
越來越多的社會(huì)化媒體網(wǎng)站推出了開放平臺(tái),提供豐富的 API,如新浪微博、博客等。
這些平臺(tái)包含許多關(guān)于“電子商務(wù)”“跨境電商”的話題和評(píng)論、圖片等內(nèi)容,這些平臺(tái)允許用戶申請(qǐng)平臺(tái)數(shù)據(jù)的采集權(quán)限并為其提供相應(yīng)的 API 采集數(shù)據(jù)。
API 采集主要有開放認(rèn)證協(xié)議和開源 API 調(diào)用兩類。
① 開放認(rèn)證協(xié)議 開放認(rèn)證(OAuth)協(xié)議不需要提供用戶名和密碼就可以獲取用戶數(shù)據(jù),它為第三方應(yīng)用提供了一個(gè)“令牌”,每一個(gè)“令牌”對(duì)應(yīng)特定的網(wǎng)站(如社交網(wǎng)站),并且應(yīng)用只能在令牌規(guī)定的時(shí)間范圍內(nèi)訪問特定的資源。
為了降低 OAuth 協(xié)議的復(fù)雜性,OAuth 2.0 協(xié)議很快被提出,OAuth 2.0 更加關(guān)注客戶端開發(fā)者的操作簡(jiǎn)易性,它為手機(jī)應(yīng)用、桌面應(yīng)用和 Web 應(yīng)用提供專門的認(rèn)證流程。
目前,各大社交網(wǎng)站諸如新浪微博等都提供了 OAuth 2.0 支持。
在已獲授權(quán)的情況下,第三方應(yīng)用可通過 API 直接調(diào)取網(wǎng)絡(luò)數(shù)據(jù)。
通過 API 獲取的網(wǎng)絡(luò)數(shù)據(jù)通常以 JSON 或 XML 的格式呈現(xiàn),具有清晰的數(shù)據(jù)結(jié)構(gòu),非常便于通過程序直接進(jìn)行數(shù)據(jù)提取。
② 開源 API 調(diào)用 開源 API 是網(wǎng)站自身提供的接口,可以自由地更改接口來調(diào)用該網(wǎng)站的指定數(shù)據(jù)。
跨境電商數(shù)據(jù)采集的流程 因?yàn)閿?shù)據(jù)采集要求越來越高,數(shù)據(jù)采集量日益增加,單臺(tái)計(jì)算機(jī)的采集已不能很好地滿足用戶的需求。
云計(jì)算技術(shù)的出現(xiàn)正好解決了這個(gè)問題。
云計(jì)算將計(jì)算和數(shù)據(jù)分布在大量的分布式計(jì)算機(jī)上,“云”中的計(jì)算機(jī)提供強(qiáng)大的計(jì)算能力,能夠完成傳統(tǒng)單臺(tái)計(jì)算機(jī)根本無法完成的計(jì)算任務(wù)。
同時(shí),“云”中的計(jì)算機(jī)具有龐大的數(shù)據(jù)存儲(chǔ)空間,使采集器可以滿足多種采集需求。
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。