WordPress教程之通过robots协议屏蔽搜索引擎抓取网站部分内容

大家做网站难免有些时候不想让某些搜索引擎抓取某些页面,当然可以在根目录下放robots.txt文件屏蔽搜索引擎或者设置搜索引擎可以抓取文件范围以及规则。Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

一、Robots协议写法说明

  • User-agent: 这里的代表的所有的搜索引擎种类,*是一个通配符;
  • Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录;
  • Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录;
  • Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录;
  • Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录);
  • Disallow: /? 禁止访问网站中所有包含问号 (?) 的网址;
  • Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片;
  • Disallow: /ab/adc.html 禁止爬取ab文件夹下面的adc.html文件;
  • Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录;
  • Allow: /tmp 这里定义是允许爬寻tmp的整个目录;
  • Allow: .htm$ 仅允许访问以”.htm”为后缀的URL;
  • Allow: .gif$ 允许抓取网页和gif格式图片;
  • Sitemap: 网站地图地址 告诉爬虫这个页面是网站地图;

二、Robots协议举例

例1. 禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt”)

User-agent: *
Allow: /

例3. 禁止某个搜索引擎的访问

User-agent: BadBot
Disallow: /

例4. 允许某个搜索引擎的访问

User-agent: Baiduspider
Allow:/

三、本站使用的Robots协议

User-agent: *
Disallow: /wp-*/
Disallow: /*?connect=*
Disallow: /date/*
Disallow: /kod/*
Disallow: /api/*
Disallow: /*/trackback
Disallow: /*.js$
Disallow: /*.css$
Disallow:/*?replytocom*
Disallow: /comments/
Disallow: /*/comments/
Disallow: /feed/*
Disallow: /*/*/feed/*
Disallow: /*/*/*/feed/*
Disallow:/articles/*
Disallow:/shuoshuo/*
Sitemap: https://imotao.com/sitemap.xml

 

原创文章,作者:陌涛,如若转载,请注明出处:https://imotao.com/3578.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
陌涛陌涛
上一篇 2020年8月12日 下午6:24
下一篇 2020年8月12日 下午6:29

相关推荐

  • WordPress纯代码实现自助申请友链功能

    1、在你wp博客主题的目录下新建一个名为blinks.php的文件; 2、复制以下代码至blinks.php中: // 表单项数据验证 if ( empty($link_name)…

    2019年8月22日
    98300
  • WordPress默认编辑器可视化切换不见了,非插件导致消失问题

    升级到了WordPress 5.6,发现编辑文章的编辑器里没法切换。如下图 点击了右上角选项,依然看不到切换按钮 解决方法:1、后台–>用户–>我的个人资料2、看看 【…

    2021年3月28日
    80000
  • All-in-One WP Migration

    该插件无需技术知识即可导出您的WordPress网站,包括数据库,媒体文件,插件和主题。 PHP默认上传体积为2M,你可以参考以下教程修改: https://imotao.com/…

    2019年10月17日
    79800
  • 将远程图片保存至本地

    自动保持远程图片到本地,并且自动生成缩略图 可将远程图片保存至本地,搬运文章更加方便。 2016版 点击下载 提取码:n77j

    2019年10月17日
    1.0K00
  • WordPress SEO设置的终极指南

    搜索引擎优化SEO,是为博客或网站获得流量的必需之法。然而,让新站点利于搜索是个挑战,特别是对于那些没有很多网络开发经验的人来说。但是,WordPress为用户提供了许多简单的方法…

    2020年8月12日
    64200
  • 如何解决wp网站MySQL经常性关闭

    近期有客户反映,自己的wp网站程序安装的时候好好的,使用一两天后就出现数据库连接失败的情况。导致这个问题的原因一般是服务器的MySQL负载过高,吃了大量内存。如果是安装了宝塔的用户…

    2022年10月2日
    79600
  • JenneyBRO – 模块化wordpress博客主题

    首页可完全的模块化编辑,根据自己的需求添加各种实用的模块,例如轮播图、分类模块、人物模块三种。充分满足各类博客的需要 这是一款模块化的wordpress主题,首页可完全的模块化编辑…

    2020年12月16日
    39700
  • WordPress主题CorePress

    主题介绍 主题叫做CorePress,是一款多功能的WordPress主题,可以当博客使用,也可以做成CMS站点。 无框架设计 站长手撸前台界面,无任何前端界面框架,加载更迅速。 …

    2021年1月14日
    63600
  • WordPress 6.3.2 安全版本更新 建议升级修复

    如果我们有在使用WordPress程序建站的朋友在登录后台是否有看到再次有新版本提示,这就是WordPress 6.3.2版本,而且这个版本是有安全补丁漏洞的,值得我们升级。这个安…

    2023年10月18日
    60900
  • 一定要看的WordPress网站性能及速度优化建议

    一个网站能否给用户良好的体验,决定了这个网站的前途。影响用户体验的最直观的因素有3个:网站速度、网站内容和网站功能(外观、操作等)。网站速度永远是第一位,如果网站太慢,用户没有耐心…

    2020年5月7日
    1.7K00

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理