Google 真的使用 TF-IDF 嗎?
Posted: Thu Dec 12, 2024 6:35 am
使用TF-IDF 進行內容優化就像拿到季後賽門票,卻發現自己坐在廉價座位上,視野受阻,而溫尼伯噴射機隊正在比賽。 TF-IDF 的支持者就像多倫多楓葉隊的球迷。雖然楓葉隊偶爾會贏得一場比賽,但距離史丹利杯已經過去 54 年了。但粉絲們仍然抱持著希望。
理解人類文本是一項複雜的任務,其中 TF-IDF 只是演算法交響樂中的一個小角色。
TF-IDF 並不是一個先進的概念。術語頻率是 20 世紀 50 年代引入的概念,而逆文檔頻率出現在 1970 年代。那是大約50年前的事了!
儘管如此,TF-IDF 確實有其用處。Bill Slawski 對 USPTO.gov 網站進行了搜索,發現超過 350 項 Google 專利提到了這個概念。但 TF-IDF 只是演算法集合中的一個小角色,大多數人都過度強調了它的作用。
如果您確實想知道冰球的去向,請閱讀這篇 Google 研 西班牙電話號碼數據
究論文,《重新思考搜尋:讓業餘愛好者成為專家》,作者為 Metzler、Tay、Bahri 和 Najork,於 2021 年 5 月發表。
在本文中,作者提到了與「目前最先進的檢索系統」相關的 TF-IDF。 TF-IDF 粉絲請注意劇透!你會失望的。
「近期重要研究的三個具體領域」最終形成了目前複雜的文檔檢索系統。我按照複雜程度對它們進行了排序:
表示學習(將查詢和文件編碼為向量表示)
基於神經的重新排序模型(使用基於神經的模型對文件進行評分或排序
學習排名(基於大量易於存取的用戶互動數據)
那麼 TF-IDF 在這個結構中位於什麼位置呢?
在最底部以下。
正如作者所解釋的那樣,學習排名運動「代表了超越傳統基於 TF.IDF 的 IR 系統的變革性飛躍」。
顯示不同層級的資訊檢索系統的金字塔。從最複雜的頂部到最複雜的底部:表示學習、基於神經的重新排序模型、基於互動的學習排序模型、TF-IDF、
「當今最先進的系統通常依賴基於術語(即,透過倒排索引檢索)和語義(即,透過密集向量表示索引檢索)檢索的組合來產生初始候選集。然後,這組候選者通常會被傳遞到重新排序模型的一個或多個階段,這些模型很可能是基於神經網路的學習排序模型。 “
TF-IDF 的頑固分子可能會抱持希望,認為使用 TF-IDF 的效果「比單獨使用關鍵字要好一些」。畢竟,任何提升都比沒有好,對吧?
我不認為這是暗示。
但是,如果正如 Moz 文章所述,“許多高級文本分析技術都使用 TF-IDF 版本作為基礎”,那麼使用它一定有一定的有效性,對嗎?
這就像說鯨魚是扁動物的一個版本。是的,兩者都是海洋、自由生活的多細胞生物。但如果認為它們是等價的,那就有點想像力了。
鯨魚和扁動物。
Bernd Schierwater,CC BY 4.0,來自 Wikimedia Commons
請記住,Moz 的文章發表於 2014 年,
以下是一些基於神經的重新排序模型的範例,您可以將其與 TF-IDF 進行比較:
PACRR:用於相關性匹配的位置感知神經 IR 模型
使用內核池的端到端神經臨時排名
用於即席檢索的深度相關性匹配模型
正如Google研究人員所解釋的那樣,“先進的機器學習和基於 NLP 的方法是現代系統索引、檢索和排名組件不可或缺的一部分。”它們看起來一點也不像 TF-IDF——一點也不像。
危險在於,在將 TF-IDF 與 Google 聯繫起來時,有些人可能會認為將 TF-IDF 應用到他們的內容創建過程中將保證他們使用正確的字詞。人們相信,透過使用正確的詞語,他們的排名會更高。
這完全是錯誤的。
我確信 Google 不會像 TF-IDF 工具的支持者讓您相信的那樣使用TF-IDF 演算法。您可以在David Blei 和 John Lafferty 撰寫的題為“主題模型”的論文中理解其中的原因。鑑於 Blei 是第一個將潛在狄利克雷分配(LDA)應用到機器學習的人,因此它是您能找到的最佳參考資料之一。
「使用整個詞彙表的計算成本通常很高。透過TFIDF選擇前V個單字是一種有效的詞彙修剪方法。這自然會刪除停用詞和其他幾乎沒有為文件提供主題內容的術語。
他們使用 TF-IDF 的輸出作為輸入來建立主題模型。 TF-IDF 本身不產生主題模型。這是一個很大的區別!
那麼使用這種工具的風險在哪裡呢?
你正在採取霰彈槍的方法。這就像帶刀參加槍戰一樣。
危險在於,在嘗試使用這種方法優化內容時,您最終會疏遠讀者和搜尋引擎。還記得關鍵字密度在 SEO 中風靡一時的時候嗎?
關鍵字填充範例顯示 5 句話段落的每個句子中使用的術語「關鍵字」。
直到今天,仍有一些網站為這種誤導性的做法付費。不要讓你的成為其中之一。相反,從資訊獲取的角度創建內容,為圍繞該主題的對話添加一些獨特的內容。
雖然Google使用詞頻逆文檔頻率,但它只在文字預處理中發揮作用。它本身並不創建主題模型。因此,依賴 TF-IDF 的輸出進行內容最佳化是錯誤的。
如果要在使用 TF-IDF 優化內容或什麼都不優化之間做出選擇,我會選擇後者。幸運的是,您不必這樣做。
理解人類文本是一項複雜的任務,其中 TF-IDF 只是演算法交響樂中的一個小角色。
TF-IDF 並不是一個先進的概念。術語頻率是 20 世紀 50 年代引入的概念,而逆文檔頻率出現在 1970 年代。那是大約50年前的事了!
儘管如此,TF-IDF 確實有其用處。Bill Slawski 對 USPTO.gov 網站進行了搜索,發現超過 350 項 Google 專利提到了這個概念。但 TF-IDF 只是演算法集合中的一個小角色,大多數人都過度強調了它的作用。
如果您確實想知道冰球的去向,請閱讀這篇 Google 研 西班牙電話號碼數據
究論文,《重新思考搜尋:讓業餘愛好者成為專家》,作者為 Metzler、Tay、Bahri 和 Najork,於 2021 年 5 月發表。
在本文中,作者提到了與「目前最先進的檢索系統」相關的 TF-IDF。 TF-IDF 粉絲請注意劇透!你會失望的。
「近期重要研究的三個具體領域」最終形成了目前複雜的文檔檢索系統。我按照複雜程度對它們進行了排序:
表示學習(將查詢和文件編碼為向量表示)
基於神經的重新排序模型(使用基於神經的模型對文件進行評分或排序
學習排名(基於大量易於存取的用戶互動數據)
那麼 TF-IDF 在這個結構中位於什麼位置呢?
在最底部以下。
正如作者所解釋的那樣,學習排名運動「代表了超越傳統基於 TF.IDF 的 IR 系統的變革性飛躍」。
顯示不同層級的資訊檢索系統的金字塔。從最複雜的頂部到最複雜的底部:表示學習、基於神經的重新排序模型、基於互動的學習排序模型、TF-IDF、
「當今最先進的系統通常依賴基於術語(即,透過倒排索引檢索)和語義(即,透過密集向量表示索引檢索)檢索的組合來產生初始候選集。然後,這組候選者通常會被傳遞到重新排序模型的一個或多個階段,這些模型很可能是基於神經網路的學習排序模型。 “
TF-IDF 的頑固分子可能會抱持希望,認為使用 TF-IDF 的效果「比單獨使用關鍵字要好一些」。畢竟,任何提升都比沒有好,對吧?
我不認為這是暗示。
但是,如果正如 Moz 文章所述,“許多高級文本分析技術都使用 TF-IDF 版本作為基礎”,那麼使用它一定有一定的有效性,對嗎?
這就像說鯨魚是扁動物的一個版本。是的,兩者都是海洋、自由生活的多細胞生物。但如果認為它們是等價的,那就有點想像力了。
鯨魚和扁動物。
Bernd Schierwater,CC BY 4.0,來自 Wikimedia Commons
請記住,Moz 的文章發表於 2014 年,
以下是一些基於神經的重新排序模型的範例,您可以將其與 TF-IDF 進行比較:
PACRR:用於相關性匹配的位置感知神經 IR 模型
使用內核池的端到端神經臨時排名
用於即席檢索的深度相關性匹配模型
正如Google研究人員所解釋的那樣,“先進的機器學習和基於 NLP 的方法是現代系統索引、檢索和排名組件不可或缺的一部分。”它們看起來一點也不像 TF-IDF——一點也不像。
危險在於,在將 TF-IDF 與 Google 聯繫起來時,有些人可能會認為將 TF-IDF 應用到他們的內容創建過程中將保證他們使用正確的字詞。人們相信,透過使用正確的詞語,他們的排名會更高。
這完全是錯誤的。
我確信 Google 不會像 TF-IDF 工具的支持者讓您相信的那樣使用TF-IDF 演算法。您可以在David Blei 和 John Lafferty 撰寫的題為“主題模型”的論文中理解其中的原因。鑑於 Blei 是第一個將潛在狄利克雷分配(LDA)應用到機器學習的人,因此它是您能找到的最佳參考資料之一。
「使用整個詞彙表的計算成本通常很高。透過TFIDF選擇前V個單字是一種有效的詞彙修剪方法。這自然會刪除停用詞和其他幾乎沒有為文件提供主題內容的術語。
他們使用 TF-IDF 的輸出作為輸入來建立主題模型。 TF-IDF 本身不產生主題模型。這是一個很大的區別!
那麼使用這種工具的風險在哪裡呢?
你正在採取霰彈槍的方法。這就像帶刀參加槍戰一樣。
危險在於,在嘗試使用這種方法優化內容時,您最終會疏遠讀者和搜尋引擎。還記得關鍵字密度在 SEO 中風靡一時的時候嗎?
關鍵字填充範例顯示 5 句話段落的每個句子中使用的術語「關鍵字」。
直到今天,仍有一些網站為這種誤導性的做法付費。不要讓你的成為其中之一。相反,從資訊獲取的角度創建內容,為圍繞該主題的對話添加一些獨特的內容。
雖然Google使用詞頻逆文檔頻率,但它只在文字預處理中發揮作用。它本身並不創建主題模型。因此,依賴 TF-IDF 的輸出進行內容最佳化是錯誤的。
如果要在使用 TF-IDF 優化內容或什麼都不優化之間做出選擇,我會選擇後者。幸運的是,您不必這樣做。