论坛登陆 注册 教程 笑话 影视 投稿
首页 | 页界资讯 | 网络应用 | 软件应用 | 组网技术 | 网络原理 | 聊天通讯 | 网管知识 | 帮助
笑话 | 操作系统 | 注 册 表 | 编程开发 | 数 据 库 | 媒体动画 | 网页设计 | 图形图象 | 地图
论坛 | 网络安全 | 安全防范 | 服 务 器 | 硬件学堂 | 路由技术 | 搜索研究 | 站长经验 | 投稿
影院 | 教育频道 | 特色专题 | 精文荟萃 | 注 册 码 | 论坛社区 | 网站地图 | 广告服务 | 旧版
设为首页 加入收藏
当前位置:首页>>文章>>网页设计>>网页相关>>正文

搜索引擎指南robots.txt文件

www.xker.com 作者: 来源:天极网 加入日期:2006-3-27 10:57:16

【问题提问、论坛交流】

 有一种力量其实一直在渗入大量的网站和页面,我们通常看不到它们,而且它们通常也很蛮横,大部分人甚至不知道它的存在,大家不要误会,其实我说得是搜索引擎爬虫和机器人每天,上百个这样的爬虫会出来对网站进行快速的搜索不管是不是google打算对整个网络进行索引,还是spam机器人打算收集大量的 email地址,通常它们这样的寻找是漫无目的的作为网站拥有者,我们可以通过一个叫做robots.txt的文件来控制哪些动作是机器人可以做的

  创建robots.txt文件

  好,现在我们开始行动创建一个叫robots.txt的文本文件,请确保它的文件名是正确的该文件必须上传到在您的网站的根目录下,而不是二级目录下(例如,应该是http://www.mysite.com,而不是http: //www.mysite.com/stuff),只有满足以上两点,即文件名正确和路径正确,搜索引擎才会根据该文件中的规则工作,否则 robots.txt仅仅只是个常规文件而已,没有任何作用

  现在,你已经知道如果这个文件该如何命名,以及应该把它上传在何处,接下来你会学习在这个文件中键入命令,搜索引擎会遵循一个叫做“机器人排除协议”(Robots Exclusion Protocol)的协议其实,它的格式很简单,并且能够满足大多数的控制需要首先是一行USERAGENT用来识别爬虫类型,紧跟着的是一行或者多行DISALLOW,这些行是用来限制爬虫访问网站的一些部分的

  1) robots.txt基本设置

  User-agent: *

  Disallow: /根据以上的声明,所有的爬虫(这里用*表示出来)均不允许对您的网站的任何部分进行索引,这里的/表示所有页面通常情况下这不是我们需要的,但这里仅仅是让大家有个概念而已

  2) 现在让我们做一些小小的改动尽管每个站长都喜欢Google,但是你可能不希望Google的镜像机器人挖掘你的网站,也不希望它把你的网站的镜像放在网上,实现在线搜索,如果仅仅是为了节省你的网站所在的服务器的带宽,下面的声明可以做到这一点

  User-agent: Googlebot-Image

  Disallow: /3) 以下代码不允许任何一个搜索引擎和机器人挖掘目录和页面信息

  User-agent: *

  Disallow: /cgi-bin/

  Disallow: /privatedir/

  Disallow: /tutorials/blank.htm4) 你还可以对多个机器人设置不同的目标,看看下面的代码

  User-agent: *

  Disallow: /

  User-agent: Googlebot

  Disallow: /cgi-bin/

  Disallow: /privatedir/这个设置很有趣,这里我们禁止了所有的搜索引擎对于我们的网站的挖掘操作,除了google,在这里Google被允许访问除了/cgi-bin/和/privatedir/以外的所有站点这里说明,规则是可以定制的,但不是继承而来的

  3) 有另外一种使用Disallow的方法:即允许访问网站所有内容,其实只要冒号后不输入任何东西就可以了

  User-agent: *

  Disallow: /

  User-agent: ia_archiver

  Disallow:在这里,除了alex以外的所有爬虫都不允许搜索我们的网站

  4) 最后,一些爬虫现在支持Allow规则,最著名的就是Google正如这个规则的名字所说,"Allow:"允许你精确的控制那些文件或者文件夹是可以被访问的然而,这个文件目前还不是robots.txt协议的组成部分,所以我建议只有在必须使用时才使用它,因为一些不够聪明的爬虫可能认为它是错误的

本新闻共2页,当前在第1页  1  2  

编辑:xker.com

上一篇:分析网页的几种加密技术
下一篇:没有了
关闭窗口】【技术交流】【收藏此页
相关文章
·正确认识网站的搜索引擎优化策略·网页优化 向搜索引擎提交网站的技巧·搜索引擎优化SEO全攻略 选项
·新式搜索引擎Kosmix欲挑战Google·影响网站排名的一些问题·怎样避免被搜索引擎视为作弊
·入侵某搜索引擎·巧用搜索引擎 创建自己喜欢的搜索栏(·Windows Vista IE7 默认搜索引擎更改
·Java实现利用搜索引擎收集网址的程序·哪些行为会被百度搜索引擎认为是作弊·百度搜索引擎经典徽标展示
·百度搜索引擎使用指南 ·2005全球中文搜索引擎质量对比 
推荐文章 最新文章 热门文章
·小工具大用处 让网吧线路可以自由切换
·C#利用Web Service实现短信发送
·用VB6.0实现网络实时监控系统
·MP4播放器玩转字幕—— 从Sub到Srt
·JAVA 与.NET 在前途上面的比较
·AJAX+JSF组件实现高性能的文件上载
·自己制作带农历的年历
·全面分析Java的垃圾回收机制
·3DMAX打造宇宙中遥望美丽的地球
·实现.NET应用程序的自动更新
·黑客也在乎安全:谈黑客避开检测的手
·内网安全技术十大策略 打造坚固的内网
·优化MySQL数据库性能的八大“妙手”
·给系统减肥 卸载Windows中的集成组件
·MySQL数据库中mysqldump命令使用详解
·搜索引擎指南robots.txt文件
·ASP.NET的性能
·ASP.net简介
·动态加载类的原理——元数据的使用
·ASP.NET应用程序规划与设计
·ASP.NET创建Web Services之概述
·Office 2007推迟发布 初定于明年一月
·网管工具 用OH协助服务器进行安全监控
·Windows系统中几则共享信息快捷管理命
·小工具大用处 让网吧线路可以自由切换
·修改asp代码防止被杀毒软件误删
·巧用WinRAR让加密文件变颜色
·QQ火腿肠和QQ方便面即将登场?
·惊人言论:商业软件十年内全免费
·QQ空间养花指南
·个人简历表格
·免费代理IP(每日更新)
·QQ收费头像免费使用的方法 
·QQ密码丢失后能做的事情:快速找回密码
·Norton AntiVirus 2006 注册码(激活
·系统优化 专题
·豪杰超级解霸V9.1正版注册码
·WinRAR 3.51 注册码
·找回QQ密码的注意事项 
·史上最强QQ个人档案资料欣赏
·Ajax技术开发指南
·最经典的黑客入门教材
·求职简历封皮
·ACDSee v8.0注册码
·QQ空间皮肤代码
评论

设为首页 - 版权声明 - 广告服务 - 关于我们 - 联系我们 - 友情连接
Copyright © 2003-2006 xker.com All rights reserved.小新技术网 合作广告QQ:12231446
本页浏览次数: