一个网站,可以有robots.txt,也可以没有。但是如果要有,那就必须做的规范,下面就个人经验来说下robots.txt的制作方法。
robots.txt文件命令包括:
Disallow - 告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取所有的网站文件:
User-agent: *
Disallow: /
Allow - 告诉蜘蛛应该抓取某些文件。Allow和Disallow配合使用,可以告诉蜘蛛某个目录下,大部分都不抓取,只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件,而只抓取其中cd下的文件:
User-agent: *
Disallow: /ab/
Allow: /ab/cd
$通配符 - 匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL:
User-agent: *
Allow: .htm$
*通配符 - 告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止蜘蛛抓取所有htm文件:
User-agent: *
Disallow: /*.htm
Sitemaps位置 - 告诉蜘蛛你的网站地图在哪里,格式为:
Sitemap:
提醒大家:制作网站的人很多时候还没做好搜索引擎就收录了,然后他们又一直修改,这样对网站的权重是相当不利的。因此他们的屏蔽是为了在制作未完成时不被搜索引擎抓取。但做好后,有些时候会忘了,或者由于其它原因又没开取。
因此当我们接手的时候,记得要开起,以免推广了很长的时间,搜索引擎确没有任何的反映。
西安网站设计公司-- 派谷网络,已成为西安网站建设公司最早成立的知名品牌之一。设计服务范围包括:网站建设、虚拟主机,企业邮箱,软件界面设计等。多年来,我们所服务的客户遍及全国各地,为3000多家国内外知名企业提供完善的网站建设服务。