新客网WWW.XKER.COM:致力做中国最专业的网络学院!
学院: 操作系统 - 网络应用 - 服务器 - 网络安全 - 工具软件 - 办公软件 - Web开发 - 数据库 - 网页设计 - 图形图像 - 媒体动画 - 硬件学堂 - 存储频道 - QQ专区
您的位置:首页 > 网络学院 > 网页设计 > Css教程 > 正文:robots.txt和Robots META标签

robots.txt和Robots META标签

新客网 XKER.COM 2006-04-26 来源: 收藏本文

  http://www.sun.com/robots.txt

  http://www.eachnet.com/robots.txt

  5、 常见robots.txt错误

  l 颠倒了顺序:

  错误写成

  User-agent: *

  Disallow: GoogleBot

  正确的应该是:

  User-agent: GoogleBot

  Disallow: *

  l 把多个禁止命令放在一行中:

  例如,错误地写成

  Disallow: /css/ /cgi-bin/ /images/

  正确的应该是

  Disallow: /css/

  Disallow: /cgi-bin/

  Disallow: /images/

  l 行前有大量空格

  例如写成

  Disallow: /cgi-bin/

  尽管在标准没有谈到这个,但是这种方式很容易出问题。

  l 404重定向到另外一个页面:

  当Robot访问很多没有设置robots.txt文件的站点时,会被自动404重定向到另外一个Html页面。这时Robot常常会以处理robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题,但是最好能放一个空白的robots.txt文件在站点根目录下。

  l 采用大写。例如

  USER-AGENT: EXCITE

  DISALLOW:

  虽然标准是没有大小写的,但是目录和文件名应该小写:

  user-agent:GoogleBot

  disallow:

  l 语法中只有Disallow,没有Allow!

  错误的写法是:

  User-agent: Baiduspider

  Disallow: /john/

  allow: /jane/

  l 忘记了斜杠/

  错误的写做:

  User-agent: Baiduspider

  Disallow: css

  正确的应该是

  User-agent: Baiduspider

  Disallow: /css/

  下面一个小工具专门检查robots.txt文件的有效性:

  http://www.searchengineworld.com/cgi-bin/robotcheck.cgi

  二、 Robots META标签

  1、什么是Robots META标签

  Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。具体的形式类似(见黑体部分):

  <html>
  <head>
  <title>时代营销--网络营销专业门户</title>
  <meta name="Robots" content="index,follow">
  <meta http-equiv="Content-Type" CONTENT="text/html; charset=gb2312">
  <meta name="keywords" content="营销… ">
  <meta name="description" content="时代营销网是…">
  <link rel="stylesheet" href="/public/css.css" type="text/css">
  </head>

  <body>
  …
  </body>
  </html>

  2、Robots META标签的写法:

  Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

  INDEX 指令告诉搜索机器人抓取该页面;

  FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

  Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。

  这样,一共有四种组合:

  <META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
  <META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
  <META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
  <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

   其中<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成<META NAME="ROBOTS" CONTENT="ALL">; <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成<META NAME="ROBOTS" CONTENT="NONE">

共3页: 上一页 [1] [2] [3] 下一页
收藏】 【评论】 【推荐】 【投稿】 【打印】 【关闭
发表评论
要记得去论坛讨论,点击注册新会员匿名评论
评论内容:不能超过250字,需审核后才会公布,请自觉遵守互联网相关政策法规。
阅读排行
随机推荐
实用信息推荐