日期:2013-08-09 閱讀:1876
首先我先講解一下什么是robots.txt
robots.txt是搜索引擎中訪問網(wǎng)站的時(shí)候要查看的第一個(gè)文件。Robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。
當(dāng)一個(gè)搜索蜘蛛訪問一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。
然而很多人都知道有robots這回事,卻不知道應(yīng)該如何下手,今天我說下如何來寫robots.txt
首先你要想一下那些網(wǎng)站目錄是不想被搜索蜘蛛給抓取的,哪些是需要被抓取的,這個(gè)很重要,如果亂寫robots有可能會(huì)把屏蔽網(wǎng)站給搜索引擎收錄的。
robots.txt文件一定要寫在網(wǎng)站的根目錄上面,例如:
而不能這樣
www.ainatec.com/seo/robots.txt
記得一定要在根目錄就對(duì)了,然后里面的寫法有兩條
User-Agent: 適用下列規(guī)則的漫游器
Disallow: 要攔截的網(wǎng)頁
User-Agent: Googlebot(baiduspider)這個(gè)就是谷歌(百度)的蜘蛛
Disallow: /seo
這樣寫的意思就是說我不想google或者百度的蜘蛛來抓取我seo這個(gè)文件夾里面的東西,*的話就代表全部。
如果你建立一個(gè)空的或者不建立robots的話,該網(wǎng)站的全部內(nèi)容都會(huì)搜索引擎所收錄,然后很多人就會(huì)問了,網(wǎng)站不是被收錄的越多越好嗎?
我就打個(gè)比方吧,你的網(wǎng)站生成靜態(tài),然而之前的動(dòng)態(tài)又還在,蜘蛛就是抓取兩個(gè)同時(shí)收錄,然后搜索引擎就會(huì)認(rèn)為兩個(gè)標(biāo)題相同的文章出現(xiàn)在同一網(wǎng)站的話就會(huì)認(rèn)為你是在作弊了,有可能會(huì)被降權(quán)。
主要是因?yàn)楹芏嗑W(wǎng)站的內(nèi)容都沒有其他鏈接,為了把這些鏈接更好的連接起來,讓蜘蛛能抓取更多的資源。
如果是谷歌的話,大家可以注冊(cè)個(gè)管理員工具,生成的XML文件自己提交給谷歌,百度沒有管理員工具的話就可以通過在robots.txt里面寫Sitemap
寫法如下:
Sitemap:http://www.ainatec.com/sitemap.xml
Sitemap:http://www.ainatec.com/sitemap.txt
Sitemap:http://www.ainatec.com/sitemap.html
這三種形式都可以,一般自動(dòng)都會(huì)生成xml,如果不會(huì)生成sitemap可以去網(wǎng)上找下工具或者使用一些開源的cms都會(huì)有自帶的!