公司做網(wǎng)站優(yōu)化很久了,一直不是很了解robots文件該怎么設(shè)置,也不知道設(shè)置它對(duì)網(wǎng)站優(yōu)化有沒(méi)有作用,求解答。
|2020/01/08 15:17
robots文件用于指令搜索引擎禁止抓取網(wǎng)站某些內(nèi)容或者指定抓取網(wǎng)站某些內(nèi)容。因?yàn)閞obots文件是針對(duì)搜索引擎的,所以運(yùn)用好能夠增加搜索引擎爬取網(wǎng)站的體驗(yàn)度從而增加網(wǎng)站收錄量。
1. 屏蔽網(wǎng)站的空、死鏈接
由于網(wǎng)站內(nèi)容的修改以及刪除,容易導(dǎo)致網(wǎng)站內(nèi)的一些內(nèi)鏈?zhǔn)ё優(yōu)榭真溁蛘咚梨?。通常我們?huì)對(duì)網(wǎng)站定期檢查空鏈和死鏈,將這些鏈接提取出來(lái),寫(xiě)入robots文件之中,防止搜索引擎爬取該鏈接,間接提升搜索引擎的體驗(yàn)。該種方式是有效的,因?yàn)樾薷囊呀?jīng)收錄的內(nèi)容時(shí)會(huì)使得搜索引擎重新的爬取修改過(guò)的網(wǎng)頁(yè),再次判斷是否進(jìn)行收錄,如果沒(méi)有繼續(xù)收錄了,那么就得不嘗試了。
2. 防止蜘蛛爬取網(wǎng)站重復(fù)內(nèi)容
因?yàn)榫W(wǎng)站很多的動(dòng)態(tài)頁(yè)面搜索引擎時(shí)無(wú)法收錄的,所以很多時(shí)候我們需要對(duì)于這些動(dòng)態(tài)頁(yè)面進(jìn)行制定一個(gè)靜態(tài)的頁(yè)面以助于搜索引擎收錄。這時(shí)候就讓搜索引擎不要爬取某一些重復(fù)的內(nèi)容,可以減少站內(nèi)的頁(yè)面關(guān)鍵詞權(quán)重競(jìng)爭(zhēng)。
3. 防止蜘蛛爬取無(wú)意義內(nèi)容,浪費(fèi)服務(wù)器資源
網(wǎng)站上是有很多的內(nèi)容都是一些無(wú)意義的內(nèi)容,例如網(wǎng)站的各種腳本代碼、css文件和php文件等等,這些文件對(duì)于網(wǎng)站優(yōu)化都是無(wú)意義的,爬取這些網(wǎng)站不僅不會(huì)收錄,而且還會(huì)浪費(fèi)服務(wù)器的資源。上圖中很多禁止訪(fǎng)問(wèn)的內(nèi)容都是這類(lèi)無(wú)意義的文件目錄。
4. 保護(hù)網(wǎng)站隱私內(nèi)容
網(wǎng)站有很多的頁(yè)面都是有著一定隱私的,例如一個(gè)用戶(hù)接受的推送又或者是購(gòu)物車(chē)等等,這些鏈接雖然在一個(gè)頁(yè)面之中有,但是顯然是不希望搜索引擎爬取的內(nèi)容。
5. 有利于網(wǎng)站調(diào)試
在網(wǎng)站初步上線(xiàn)前都會(huì)有著一定的錯(cuò)誤,需要一段時(shí)間的調(diào)試再對(duì)搜索引擎開(kāi)放爬取,在調(diào)試期間就可以將robots文件設(shè)置為對(duì)于所有的搜索引擎都處于拒絕爬取狀態(tài),等所有的錯(cuò)誤都解決后再修改robots文件。
我在海之睿公司工作,對(duì)網(wǎng)站優(yōu)化有些了解,上面是我的個(gè)人見(jiàn)解,希望對(duì)你有幫助。
1.User-agent的設(shè)置
在"robots.txt"文件中,如果有多條 User-agent 記錄說(shuō)明有多個(gè) robot 會(huì)受到"robots.txt"的限制,對(duì)該文件來(lái)說(shuō),至少要有一條 User-agent 記錄。如果該項(xiàng)的值設(shè)為*,則對(duì)任何 robot均有效,在"robots.txt"文件中,"User-agent:*"這樣的記錄只能有一條。
2.Disallow的設(shè)置
這個(gè)值可以是一條完整的路徑,也可以是路徑的非空前綴,以 Disallow 項(xiàng)的值開(kāi)頭的URL不會(huì)被 robot 訪(fǎng)問(wèn)。
3.Allow的設(shè)置
與 Disallow 項(xiàng)相似,這個(gè)值可以是一條完整的路徑,也可以是路徑的前綴,以 Allow項(xiàng)的值開(kāi)頭的 URL是允許robot訪(fǎng)問(wèn)的。