99在线精品免费视频,少妇无码av无码专区,久久久久青草线焦综合,国产午夜福利在线视频播放

行業(yè)資訊

當前位置:首頁>信息動態(tài)>行業(yè)資訊
西安網(wǎng)站優(yōu)化告訴你robots.txt的寫法
信息來源:銘贊網(wǎng)絡(luò)  |   發(fā)布于 2016/8/9 22:45:28
第一:什么是robots.txt?
這是一個文本文件,是搜索引擎爬行網(wǎng)頁要查看的第一個文件,你可以告訴搜索引擎哪些文件可以被查看,哪些禁止。當搜索機器人(也叫搜索蜘蛛)訪問一個站點時,它首先會檢查根目錄是否存在robots.txt,如果有就確定抓取范圍,沒有就按鏈接順序抓取。

第二:robots.txt有什么用
為何需要用robots.txt這個文件來告訴搜索機器人不要爬行我們的部分網(wǎng)頁,比如:后臺管理文件、程序腳本、附件、數(shù)據(jù)庫文件、編碼文件、樣式表文件、模板文件、導航圖片和背景圖片等等。說到底了,這些頁面或文件被搜索引擎收錄了,用戶也看不了,多數(shù)需要口令才能進入或是數(shù)據(jù)文件。既然這樣,又讓搜索機器人爬行的話,就浪費了服務(wù)器資源,增加了服務(wù)器的壓力,因此我們可以用robots.txt告訴機器人集中注意力去收錄我們的文章頁面。增強用戶體驗。


1、用robots屏蔽網(wǎng)站重復頁
很多網(wǎng)站一個內(nèi)容提供多種瀏覽版本,雖然很方便用戶卻對蜘蛛造成了困難,因為它分不清那個是主,那個是次,一旦讓它認為你在惡意重復,你就慘了
User-agent: *
Disallow: /sitemap/ 《禁止蜘蛛抓取 文本網(wǎng)頁》


2、用robots保護網(wǎng)站安全
很多人納悶了,robots怎么還和網(wǎng)站安全有關(guān)系了?其實關(guān)系還很大,不少低級黑客就是通過搜索默認后臺登陸,以達到入侵網(wǎng)站的目標
User-agent: *
Disallow: /admin/ 《禁止蜘蛛抓取admin目錄下所有文件》


3、防止盜鏈
一般盜鏈也就幾個人,可是一旦被搜索引擎“盜鏈”那家伙你100M寬帶也吃不消,如果你做的不是圖片網(wǎng)站,又不想被搜索引擎“盜鏈”你的網(wǎng)站圖片
User-agent: *
Disallow: .jpg$


4、提交網(wǎng)站地圖
現(xiàn)在做優(yōu)化的都知道做網(wǎng)站地圖了,可是卻沒幾個會提交的,絕大多數(shù)人是干脆在網(wǎng)頁上加個鏈接,其實robots是支持這個功能的
Sitemap: http:-www-***-com/sitemaps/sitemaps.xml


5、禁止某二級域名的抓取
一些網(wǎng)站會對VIP會員提供一些特殊服務(wù),卻又不想這個服務(wù)被搜索引擎檢索到
User-agent: *
Disallow: /
以上五招robots足以讓你對搜索引擎蜘蛛掌控能力提升不少,就像百度說的:我們和搜索引擎應(yīng)該是朋友,增加一些溝通,才能消除一些隔膜。


第三:robots.txt基本語法
1、robots.txt的幾個關(guān)鍵語法:
a、User-agent: 應(yīng)用下文規(guī)則的漫游器,比如Googlebot,Baiduspider等。
b、Disallow: 要攔截的網(wǎng)址,不允許機器人訪問。
c、Allow: 允許訪問的網(wǎng)址
d、”*” : 通配符—匹配0或多個任意字符。
e、”$” : 匹配行結(jié)束符。
f、”#” : 注釋—說明性的文字,不寫也可。
g、Googlebot: 谷歌搜索機器人(也叫搜索蜘蛛)。
h、Baiduspider: 百度搜索機器人(也叫搜索蜘蛛)。
i、目錄、網(wǎng)址的寫法:都以以正斜線 (/) 開頭。

Disallow:/
Disallow:/images/
Disallow:/admin/
Disallow:/css/


2、列舉一些robots.txt 具體用法:
(1)允許所有的robot訪問
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
或者建一個空文件”robots.txt”即可。
(2)僅禁止某個機器人訪問您的網(wǎng)站,如Baiduspider。
User-agent: Baiduspider
Disallow: /


3、僅允許某個機器人訪問您的網(wǎng)站,如Baiduspider。
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
4、禁止訪問特定目錄
User-agent: *
Disallow: /admin/
Disallow: /css/
Disallow:
要攔截對所有包含問號 (?) 的網(wǎng)址的訪問(具體地說,這種網(wǎng)址以您的域名開頭、后接任意字符串,然后接問號,而后又接任意字符串),請使用以下內(nèi)容:
User-agent: Googlebot
Disallow: /*?
要指定與某個網(wǎng)址的結(jié)尾字符相匹配,請使用 $。例如,要攔截以 .xls 結(jié)尾的所有網(wǎng)址,請使用以下內(nèi)容: User-agent: Googlebot
Disallow: /*.xls$
您可將此模式匹配與 Allow 指令配合使用。例如,如果 ? 代表一個會話 ID,那么您可能希望排除包含 ? 的所有網(wǎng)址,以確保 Googlebot 不會抓取重復網(wǎng)頁。但是以 ? 結(jié)尾的網(wǎng)址可能是您希望包含在內(nèi)的網(wǎng)頁的版本。在此情況下,您可以對您的 robots.txt 文件進行如下設(shè)置:
User-agent: *
Allow: /*?$
Disallow: /*?
Disallow: /*? 指令會阻止包含 ? 的所有網(wǎng)址(具體地說,它將攔截所有以您的域名開頭、后接任意字符串,然后接問號,而后又接任意字符串的網(wǎng)址)。
Allow: /*?$ 指令將允許以 ? 結(jié)尾的任何網(wǎng)址(具體地說,它將允許所有以您的域名開頭、后接任意字符串,然后接 ?,? 之后不接任何字符的網(wǎng)址)。
以上介紹多數(shù)都是Google的http:-www-google-com/support/we … cn&answer=40360,百度的大同小異具體可以看http:-www-baidu-com/search/robots.html


PS:一般網(wǎng)站查看robots.txt文件的方法是主頁后面加robots.txt就可以,比如淘寶網(wǎng)的就是http:-www-taobao-com/robots.txt請注意,僅當您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網(wǎng)站上所有內(nèi)容,請勿建立robots.txt文件。