關于我們 RRS sitemaps 網站地圖

首頁 > SEO基礎 > SEO優化 > 正文

SEM論壇

百度是怎么識別采集內容的

2019-07-10 09:28:38 |  評論:0  |  點擊:  |  SEM論壇

百度是怎么識別采集內容的

百度颶風算法2.0在本月會上線,重點打擊內容作弊,尤其是采集和偽原創。很多朋友就會問了,百度是如何識別內容是采集的呢,我對網站的首段和尾段都進行了修改,或者是做了純原創操作,百度還能識別出來嗎?本文,筆者就跟大家聊聊百度識別采集內容的那些事情。

我們知道,百度最先對于內容的識別和判斷是基于分詞的,也就是說,百度會把抓取到的文章內容進行分詞,然后會按照詞頻的高低來判斷文章的主題。這里舉個很簡單的例子,比如說我們在某篇文章里估計插入大量的目標關鍵詞,百度僅僅用分詞來判斷,就會認為這篇文章的主題是我們插入的關鍵詞。這也是我們做SEO優化強調關鍵詞密度的原因。關于關鍵詞密度的重要性,之前很重要,現在和以后還是會很重要,這是判斷搜索相關性很重要的因素。

那我們再說到采集,因為之前百度對于內容的判斷僅僅停留在分詞上,所以其實對于采集的識別判斷能力是很有限的,在某些程度上說根據分詞得出的指紋特征并不是很科學。這也就導致出現了很多偽原創工具,通過替換詞就能達到欺騙百度的目的,因為經過換詞處理以后,百度是判斷不出是否是采集內容的。不過對于整篇文章不做修改的采集,百度還是能很多的判斷的,畢竟指紋是一模一樣的。

但是,隨著颶風算法2.0的推出,百度搜索已經能很完美的解決這個問題了。我們來看看百度搜索颶風算法2.0的說明,其中有一點是:

通常表現為站群網站,利用采集工具,針對特定的多個目標網站,根據對方標簽的特性,定期采集多個網站的不同段落,進行組合拼接,形成所謂的原創內容。

大家請仔細理解這句話,很明顯,百度已經能很多的識別段落了,也就是說從之前的分詞已經上升到分句和分段。如果我們對于采集內容僅僅是做簡單的首尾處理的話,還是會被百度搜索判定為采集內容的。

只能說,百度搜索一直在完善,想要在內容上欺騙百度搜索已經越來越難,最好的做法就是老老實實提供高質量的原創內容,或者是整合真正滿足用戶需求的有價值的內容。

關于百度怎么識別采集內容的問題,本文并沒有做太多技術上的解釋,因為筆者認為這沒有必要,我們只需要知道百度已經能夠很好的識別句子和段落就可以了。如果想要在內容上避開被判斷為采集內容,那么就得想辦法改變文章的每一段甚至是每一句。很顯然,這樣做的成本有點高。


關鍵字:




网球比分扳