關于我們 RRS sitemaps 網站地圖

首頁 > SEO基礎 > SEO優化 > 正文

SEM論壇

robots.txt文件,robots協議

2019-07-10 09:25:22 |  評論:0  |  點擊:  |  SEM論壇

robots.txt文件,robots協議

robots其實就是指Robots協議,Robots協議(也稱為爬蟲協議、機器人協議等)的全稱是“網絡爬蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。

而承載這些協議的文件就是robots.txt文件,那么robots.txt文件到底有啥用途,robots協議應該怎么寫,有哪些注意事項,筆者在本文將詳細跟大家介紹。

一、robots.txt文件的含義

前面有提到,這個文本文件承載著robots協議,它告訴所有搜索引擎本網站哪些頁面可以被抓取,哪些頁面禁止抓取。這樣做有兩方面的意義:

1.保護隱私。有些頁面信息不想或者說不能讓外界看到,單搜索引擎并不知道這些情況,它還是會照常抓取、展現。如果我們通過設置robots做了限制,搜索引擎蜘蛛就會放棄抓取,外界就不能通過搜索引擎了解到這些隱秘信息。

2.調節頁面抓取量。我們都知道每個網站蜘蛛抓取的配額都是有限的,如果我們通過robots.txt文件禁止一些不重要的頁面被抓取,那么就節約了配額,讓那些重要的頁面得到更多的抓取機會。

二、robots.txt文件的寫法

robots協議針對的就是允許或者不允許,另外也可以設置具體的搜索引擎,筆者認為正常情況下不用去區分搜索引擎,統一設置即可。

1. 禁止所有搜索引擎訪問網站

User-agent: *

Disallow: /

2. 允許所有搜索引擎訪問網站

User-agent: *

Allow: /

這是最基本的用法,robots協議的用法還有很多技術,筆者建議大家去仔細閱讀robots協議

三、robots.txt文件相關注意事項

有朋友說我的網站沒有什么要禁止抓取的,你就不要設置robots.txt文件了吧,理論上行得通。不過,筆者建議,即便全部開放也最好設置一個robots文件,如本站的文件:http://www.tangmengyun.com/robots.txt

PS:關注過本網站的朋友應該有印象,筆者說過本站是11月6號才有正式有蜘蛛抓取,為什么之前幾天沒有呢,問題就出在robots文件上!之前本站并沒有設置這個文件,連續3天都沒有蜘蛛抓取,筆者再三檢查也沒有發現有限制的地方,最后意識可能是robots的問題。在設置了robots.txt文件以后,當天便有蜘蛛正常抓取了。

四、robots.txt文件的位置

放在網站根目錄下,在鏈接url的顯示就是:http://www.abc.com/robots.txt,其中www.abc.com就是網站域名

五、robots文件生成

有朋友提到有沒有直接生產robots文件的工具,筆者認為這完全沒有必要,robots文件應該手動去具體設置,這樣才能發揮robots.txt文件最大的作用。

本文只是對robots.txt文件做了大體意義上的講解,更多robots協議請參考百度百科資料https://baike.baidu.com/item/robots%E5%8D%8F%E8%AE%AE/2483797。

關鍵字:




网球比分扳