雅酷SEO论坛

标题: robots文件该如何使用 [打印本页]

作者: 天之蓝 时间: 2012-12-4 22:00
标题: robots文件该如何使用
随着个人能力的提升，我开始由开始负责一些新项目操作，虽然这些项目所优化的关键词排名进度还算比较好，但在操作过程中我遇到了很多问题，这些问题的发现、解决让我认识到了seo工作中细节的重要性，可谓是细节决定成败。特别是通过项目的实战操作，让我时刻的认识到了robots文件在网站优化中的重要性。所以，阿远沈阳seo博客想告诉seo童鞋们，特别是一些初涉seo领域的童鞋们，一定要熟练的掌握robots文件使用说明及其事项。
　　Robots文件，严格说来是robots.txt文件，它的真正内涵应该如何理解呢?其实robots.txt不是命令，而是一个协议。搜索引擎在抓取一个网站内网页的时候，会先抓取robots.txt文件，所以这个文件存在的意义就是告诉搜索引擎哪些页面可以被抓取，哪些页面不能被抓取。当搜索引擎抓取网站内的网页时，它会首先访问网站根目录下的robots文件，如果存在这个文件，搜索引擎会按照文件中定义的内容进行抓取，如果没有的话，搜索引擎就会抓取一切被允许它能够抓到的页面。在我的理解中，robots文件就像是告诉搜索引擎哪些页面该访问，哪些搜索引擎不该访问。
　　那么robots.txt文件的真正写法是什么呢?在操作站点的时候，由于这个站点以前是老站点，而且是动态页面，现在是被调成了静态页面，所以里面会有很多原先的文件都消失了，所以搜索引擎就无法抓取到，会出现很多抓取错误，多达两千个，这就很有必要运用robots文件把这些已经找不到的页面定义掉，让搜索引擎不再抓取。这些内容就牵涉到robots.txt文件的书写问题。Robots文件中有两个基本原则，是最简单的robots文件要写的，第一是User-Agent: 适用下列规则的漫游器 ;第二是Disallow: 要拦截的网页，而Allow是定义允许搜索引擎收录的地址。所以robots的文件写法有以下：
　　User-agent: * (这里的*代表的所有的搜索引擎种类，*是一个通配符 )
　　Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
　　Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
　　Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
　　Disallow: /A 是屏蔽A目录下的所有文件，包括文件和子目录，还屏蔽 /A*.*的文件
　　Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
　　Disallow: /*?* 禁止访问网站中所有的动态页面
　　Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
　　Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
　　Allow: /cgi-bin/　这里定义是允许爬寻cgi-bin目录下面的目录
　　Allow: /tmp 这里定义是允许爬寻tmp的整个目录
　　Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
　　Allow: .gif$ 允许抓取网页和gif格式图片
　　而在我的站点操作中，会用到的有两个，即是最简单的robots文件的基本原则，它们分别是
　　User-agent: *
　　Disallow：/english/(即定义掉english目录下面的文件)

　　写robots.txt文件要注意：robots.txt文件必须被放置在一个站点的根目录下，一般需要在网站后台添加;robots.txt文件名必须小写。这两点看似很简单，在操作时是很多seo童鞋们是很容易犯错误的，所以还是提醒一下。

作者: 天之蓝 时间: 2012-12-4 22:00
不错robots文件就是这么简单。。。

作者: 天堂ii管理 时间: 2013-4-26 21:51
特别是一些初涉seo领域的童鞋们，一定要熟练的掌握robots文件使用说明及其事项。

欢迎光临雅酷SEO论坛 (http://www.yaiku.com/)