网站如果需要禁止搜索引擎的扫名目录,则通过robots.txt设定指定文件或路径。一般只要稍微结构层次大一点网站都是使用这个文件。如果不设定可能把网站的所有文件都会被搜索引擎扫描公开的网络上。

robots.txt文件都是小写格式,存放在根目录避免内容兼容问题都采用ASCII编码保存文本文件,这一点非常重要,其它编码格式保存搜索引擎可能会解析识别错误,在Google搜索引擎网站后台管理中很多提问“语法有误”编码错误的,将它另存为ASCII就可以了。

这里仅简单介绍下,其它的语法可以参考个各搜索引擎官方网站关于robots.txt写法。也可以参考robotstxt官方网站:http://www.robotstxt.org/

允许所有的机器人:

User-agent: *
Disallow:


仅允许指定的网络蜘蛛机器人:

User-agent: 网络蜘蛛名
Allow:

拦截所有的机器人:

User-agent: *
Disallow: /

禁止所有机器人访问特定目录:

User-agent: *
Disallow: /网站目录文件名/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/

禁止指定坏爬虫访问特定目录:

User-agent: 搜索蜘蛛名
Disallow: /private/

禁止所有网络蜘蛛机器人访问特定文件类型:

User-agent: *
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$