设为首页收藏本站
返回列表 发新帖

[电脑知识] robots.txt作用和写法

[复制链接]

classn_01: 69 classn_02

[LV.6]常住居民II

发表在  2017-5-2 20:30:44  | 显示全部楼层 | 阅读模式

马上注册,结交更多好友,学会更多电脑技术,获得更多电脑资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
一、robots.txt是什么
  robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被搜索引擎访问的部分,或者指定搜索引擎只收录指定的内容。
  当一个搜索引擎(又称搜索机器人或蜘蛛程序)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。
二、robots.txt的作用
  1、引导搜索引擎蜘蛛抓取指定栏目或内容;
  2、网站改版或者URL重写优化时候屏蔽对搜索引擎不友好的链接;
  3、屏蔽死链接、404错误页面;
  4、屏蔽无内容、无价值页面;
  5、屏蔽重复页面,如评论页、搜索结果页;
  6、屏蔽任何不想被收录的页面;
  7、引导蜘蛛抓取网站地图;
三、Robots的语法(三个语法和两个通配符)
  三个语法如下:
  1、User-agent:(定义搜索引擎)
  示例:
   User-agent: *(定义所有搜索引擎)
   User-agent: Googlebot (定义谷歌,只允许谷歌蜘蛛爬取)
   User-agent: Baiduspider  (定义百度,只允许百度蜘蛛爬取)
   不同的搜索引擎的搜索机器人有不同的名称,谷歌:Googlebot、百度:Baiduspider、MSN:MSNbot、Yahoo:Slurp。
  2、Disallow:(用来定义禁止蜘蛛爬取的页面或目录)
  示例:
    Disallow: /(禁止蜘蛛爬取网站的所有目录 "/" 表示根目录下)
    Disallow: /admin (禁止蜘蛛爬取admin目录)
    Disallow: /abc.html (禁止蜘蛛爬去abc.html页面)
    Disallow: /help.html (禁止蜘蛛爬去help.html页面)
  3、Allow:(用来定义允许蜘蛛爬取的页面或子目录)
  示例:
    Allow: /admin/test/(允许蜘蛛爬取admin下的test目录)
    Allow: /admin/abc.html(允许蜘蛛爬去admin目录中的abc.html页面)
  两个通配符如下:
  4、匹配符 “$”
    $ 通配符:匹配URL结尾的字符
  5、通配符 “*”
    * 通配符:匹配0个或多个任意字符
四、robots.txt 综合示例
  1、禁止搜索引擎抓取特定目录
  在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。
  User-agent: *
  Disallow: /admin/
  Disallow: /tmp/
  Disallow: /abc/
  2、禁止admin目录,但允许抓取admin目录下的seo子目录
  User-agent: *
  Allow: /admin/seo/
  Disallow: /admin/
  3、禁止抓取/abc/目录下的所有以".htm”为后缀的URL(包含子目录)
  User-agent: *
  Disallow: /abc/*.htm$
  4、禁止抓取网站中所有的动态页面
  User-agent: *
  Disallow: /*?*
  屏蔽所有带“?”的文件,这样就屏蔽所有的动态路径。
  5、禁止百度蜘蛛抓取网站所有的图片:
  User-agent: Baiduspider
  Disallow: /*.jpg$
  Disallow: /*.jpeg$
  Disallow: /*.gif$
  Disallow: /*.png$
  Disallow: /*.bmp$
  6、要在阻止网站页面被抓取的同时仍然在这些页面上显示 AdSense 广告
  User-agent: *
  Disallow: /folder1/
  User-agent: Mediapartners-Google
  Allow: /folder1/
  请禁止除 Mediapartners-Google 以外的所有漫游器。 这样可使页面不出现在搜索结果中,同时又能让 Mediapartners-Google 漫游器分析页面,从而确定要展示的广告。 Mediapartners-Google 漫游器并不与其他 Google User-agent 共享网页。
五、注意事项
  1、robots.txt 文件必须放在网站的根目录,不可以放在子目录。
    以WEB开发者网站为例:比如通过 http://www.admin10000.com/robots.txt 你就可以访问admin10000.com的robots.txt文件了。
  2、robots.txt 文件名命名必须小写,记得在robot面加“s”。
  3、User-agent、Allow、Disallow的 “:” 后面有一个字符的空格。
  4、路径后面加斜杠“/” 和不加斜杠的是有区别的
    Disallow: /help  
           禁止蜘蛛访问 /help.html、/helpabc.html、/help/index.html
    Disallow: /help/ 
    禁止蜘蛛访问 /help/index.html。 但允许访问 /help.html、/helpabc.html
  5、Disallow与Allow行的顺序是有意义的:
    举例说明:
    允许蜘蛛访问 /admin/ 目录下的seo文件夹
    User-agent: *
    Allow: /admin/seo/
    Disallow: /admin/
    如果Allow 和 Disallow 的顺序调换一下:
    User-agent: *
    Disallow: /admin/
    Allow: /admin/seo/
    蜘蛛就无法访问到 /admin/ 目录下的 seo 文件夹,因为第一个 Disallow: /admin/ 已匹配成功。
六、关于Robots Meta
  Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots Meta标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots Meta标签也是放在页面中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。
  Robots Meta 标签中没有大小写之分,name="Robots" 表示所有的搜索引擎,可以针对某个具体搜索引擎(如google)写为 name="Googlebot", content部分有四个指令选项:index、noindex、follow、nofollow,指令间以 “,” 分隔。
  Index 指令告诉搜索机器人抓取该页面;
  NoIndex命令:告诉搜索引擎不允许抓取这个页面
  Follow 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;
  NoFollow命令:告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。
  Robots Meta 标签的缺省值是Index和Follow;
  根据以上的命令,我们就有了一下的四种组合:
  <meta name="robots" content="index,follow"/>
  可以抓取本页,而且可以顺着本页继续索引别的链接
  <meta name="robots" content="noindex,follow"/>
  不许抓取本页,但是可以顺着本页抓取索引别的链接
  <neta name="robots" content="index,nofollow"/>
  可以抓取本页,但是不许顺着本页抓取索引别的链接
  <meta name="robots" content="noindex,nofollow"/>
  不许抓取本页,也不许顺着本页抓取索引别的链接。
  如果是 <meta name="robots" content="noindex,nofollow"/> 形式的话,可以写成:
  <meta name="robots" content="none"/>
  如果是 <meta name="robots" content="index,follow"/> 形式的话,可以写成:
  <meta name="robots" content="all"/>
七、关于 rel="nofollow"
  将"nofollow"放在超链接中,告诉搜索引擎不要抓取特定的链接。
  如某博客上有垃圾评论:
  <a href="URL">灌水</a>
  以下操作,即进行了 nofollow:
  <a href="URL" rel="nofollow" >灌水</a>

点评

海!外直播 t.cn/RxBC0c2 禁闻视频 t.cn/Rxlbuea 一司机说:这几天在琢磨,开着政府检验合格的车,烧着政府说达标的油,贴著政府发排放合格绿标,政府却说空气质量差是汽车尾气造成,我就纳闷,难道是我们踩油门的姿势不对   发表于 2018-7-12 18:01
回复

使用道具 举报

classn_11

发表于 2018-7-11 17:51:03  | 显示全部楼层

@\▲餐饮培训学校-- 麻辣海鲜的做法与配方▲『137-3

 湖北十堰陈师傅麻辣小海鲜培训工坊电★微【137★3358★7625】近些年麻辣小海鲜火爆朋友圈,不管是在淘宝网还是抖音,快手等等视频网站,到处都有它的身影。小海鲜如此的火爆受到很多吃货们的亲昧!湖北十堰陈师傅麻辣小海鲜培训工坊致力于各种海鲜菜系的开发和研究,历经多年心血,经过反复多次改良而形成的麻辣小海鲜体系已经被所有学员,代理,加盟商所认可
!
现有三大系列小海鲜火爆全国,捞汁腌制系列 爆炒海鲜酱系列 辣卤系列等!口味麻、辣、鲜、甜,适合大多数人口味。色泽透亮,鲜艳好看,可谓是色香味俱全!制作过程不使用任何添加剂,健康天然食材,可以制作20多种小海鲜和鸡鸭牛干货!经营方式灵活,可以在菜市场小区街道路口摆摊,美团,饿了吗外卖平台微商,淘宝,大小饭店,大排档,KTV歌吧等场所销售,▲■麻辣小海鲜做法秘制麻辣醉蟹钳☆『电话微信137335!家庭厨房即可操作,无需厨师,无需店面,一人即可批量操作,有无厨房经验都可!用量配比精准到克!省去好多运营费用,这也是陈师傅麻辣小海鲜的特色之处!很受刚刚创业,资金少的人青眛!陈师傅说,那些喜欢小海鲜的人,如果想要学习麻辣小海鲜的制作技术,都可以找陈师傅学习!百度一下十堰陈师傅麻辣小海鲜就可以了,@\▲餐饮培训学校-- 麻辣海鲜的做法与配方▲『137-3!而且费用超低,不会像有些人,只为了赚钱,把小海鲜的配方卖到价格几千块这样,后期在整些什么升级的配方菜品在卖高价!本身有些人看中麻辣小海鲜是因为它的特色和味道优势,那些想学习的人,刚刚创业起步,本身就缺资金,那有那么多的钱去学购买几千元的配方,学了以后在去开店,购买设备,食材,调料等等,这些下来对有些人来说已经是负担了!陈师傅会以最低的价格合适的价格,大家都能接受的价格,让想学技术创业的人得到实惠,同时自己可以多交朋友,多了解各地的人的消费习惯和口味!








    做麻辣小海鲜私房美食外卖、做麻辣小海鲜灌装零食、做麻辣小海鲜私厨实体店都可以!  &nbsp,○特色餐饮加盟-学习爆炒麻辣小海鲜!▲ 学麻辣小海鲜;  加盟代理,不如自己掌握核心技术创品牌!财富之路由此开启!
http://malaxiaohaixian1.cn.Toocle.com
回复 支持 反对

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

上个主题 下个主题 快速回复 返回列表 搜索
关于我们
关于我们
友情链接
联系我们
协会中心
协会动态
站点公告
申请专区
协会论坛
资源下载
电脑知识
电脑技术
关注我们
官方微博
官方空间
官方微信
学校网站
学校官网
教务处
网络中心
快速回复 返回顶部 返回列表