正確理解TF-IDF的算法和作用
TF-IDF是一種數(shù)值綜合統(tǒng)計(jì)度量,用來評估單詞與文檔集合中的文檔相關(guān)程度。
由TF和IDF兩個(gè)部分共同組成,其中TF指的是詞頻,也就是某個(gè)詞匯在整篇文檔中出現(xiàn)的頻率;后者IDF指的是逆文檔頻率,也就是出現(xiàn)相同詞匯文檔的值的對數(shù),數(shù)值越接近于0,說明這個(gè)詞匯越常見,在很多文檔中都存在。
TF-IDF是當(dāng)今最流行的術(shù)語加權(quán)方案之一,在信息檢索、文本挖掘和用戶建模的搜索中經(jīng)常用作加權(quán)因子,在數(shù)據(jù)庫中經(jīng)常被用作基于文本檢索的內(nèi)容推薦系統(tǒng)。
谷歌搜索引擎工作機(jī)制也一樣,都是根據(jù)搜索用戶提供的某個(gè)關(guān)鍵詞或者句子在索引數(shù)據(jù)庫中查找相關(guān)的資料,經(jīng)過排名算法的計(jì)算,給出對應(yīng)的SERP結(jié)果。
所以正確理解TF-IDF的算法和作用對于有效開展谷歌SEO工作有著重要意義。
當(dāng)然,谷歌搜索引擎不可能低級到只使用最基礎(chǔ)版本的TF-IDF算法,在算法不斷迭代更新之后,已有更復(fù)雜更全面的基于TF-IDF算法思想基礎(chǔ)的加權(quán)方案的變體,可以對文檔的相關(guān)性進(jìn)行評分和排名,成功地應(yīng)用于各種內(nèi)容主題和相關(guān)信息檢索分類領(lǐng)域。
(1)TF詞頻。
TF簡單點(diǎn)講就是某個(gè)關(guān)鍵詞在頁面或者文章中出現(xiàn)的頻率。
假設(shè)寫了一篇名為“How to maintain the coffee bean packing machine”(如何維護(hù)咖啡豆包裝機(jī))的文章,假定關(guān)鍵詞為“coffee bean packing machine”,整篇文章的詞匯總量為1500個(gè)單詞,而“coffee bean packing machine”一共重復(fù)出現(xiàn)了6次,那么該關(guān)鍵詞的TF為6/1500=0.004。
那么詞頻是高一點(diǎn)好還是低一點(diǎn)好?單從理論上來說是高一點(diǎn)好,因?yàn)門F的數(shù)值高,代表的是該關(guān)鍵詞在整篇文章中出現(xiàn)的次數(shù)較多,和該篇文章的主體核心思想關(guān)聯(lián)較為緊密。
但這是一個(gè)相比較的狀態(tài),必須設(shè)定一個(gè)前提就是該篇文章沒有刻意的填充堆砌關(guān)鍵詞,以很自然的狀態(tài)進(jìn)行文章的撰寫。
(2)IDF(逆向文檔頻率 )。
IDF算法要稍微復(fù)雜一些,所得出的值越大說明含有某關(guān)鍵詞的文檔在總文檔中出現(xiàn)的頻率越小,也就是說這篇文章或者頁面更有可能獲得好的SERP排名結(jié)果。
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。