百分百源码网-让建站变得如此简单! 登录 注册 签到领金币!

主页 | 如何升级VIP | TAG标签

当前位置: 主页>网站教程>站长资讯> CCbot有哪些蜘蛛
分享文章到:

CCbot有哪些蜘蛛

发布时间:01/29 来源:未知 浏览: 关键词:

今天发明网站日志中涌现一个不太常见的CC蜘蛛,拜访名称为:CCBot/2.0 (https://commoncrawl.org/faq/),下面我们具体来理解一下CCbot有哪些蜘蛛?

CCbot是什么蜘蛛

CCbot有哪些蜘蛛

一. CCbot有哪些蜘蛛?

CCbot,全称为Common Crawl Bot,是一个非营利性基金会致力于供给可以被所有人拜访和剖析的Web爬网数据的开放存储库。

二. 你怎样处置CCbot蜘蛛?

办法1. 运用robots.txt

运用robots.txt文件来允许或制止蜘蛛拜访页面的权限。robots.txt是放在网站根名目中,蜘蛛来拜访时会先查寻并查看robots.txt文件,并恪守robots协定来拜访网站上的内容,允许拜访则拜访,不允许拜访蜘蛛则脱离。

①. 不允许任何蜘蛛拜访您站点的任何局部

  1. User-agent:*
  2. Disallow:/

②. 允许任何蜘蛛拜访您站点的任何局部

  1. User-agent:*
  2. Disallow

③. 不允许CCbot蜘蛛拜访网站的任何局部

  1. User-agentccbot
  2. Disallow:/

④. 允许CCbot蜘蛛拜访您站点的任何局部

  1. User-agentccbot
  2. Disallow

⑤. 允许CCbot蜘蛛拜访您站点,但不允许CCbot拜访“wp-admin”文件夹

  1. User-agentccbot
  2. Disallow:/wp-admin

办法2. 运用元标志

可以在页面中运用元标志来帮忙控制搜寻引擎蜘蛛对您网站的拜访权限。要是您为所有页面运用模板,则可以在<head> 和 </ head> 之间增加元标志, 它将适用于运用该模板的所有页面。要是要控制特定页面,可以在<head> 和 </ head> 之间的各个页面上增加元标志 。

①. 允许所有蜘蛛拜访您的页面

  1. <meta name =“robots”content =“index”/>

②. 允许所有蜘蛛拜访您的网页并跟踪页面上的链接

  1. <meta name =“robots”content =“index,follow”/>

③. 允许所有蜘蛛拜访您的网页,但不允许他们跟踪链接

  1. <meta name =“robots”content =“index,nofollow”/>

④. 不允许任何蜘蛛拜访您的网页

  1. <meta name =“robots”content =“noindex”/>

⑤. 允许CCbot拜访您的网页

  1. <meta name =“ccbot”content =“index”>

⑥. 不允许CCbot拜访您的页面

  1. <meta name =“ccbot”content =“noindex”>

⑦. 允许CCbot拜访您的页面并跟踪更多页面的链接

  1. <meta name =“ccbot”content =“index,follow”>

要是你在网站日志中也发明了CCbot,不要惊慌,你接下来需要做的就是是允许它继续爬行还是制止爬行?May个人觉得这类蜘蛛没有多大的意义,一旦发明这类蜘蛛爬行比拼频繁,最佳的方式就是制止这些蜘蛛继续拜访我们的网站。

打赏

打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,你说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

百分百源码网 建议打赏1~10元,土豪随意,感谢您的阅读!

共有157人阅读,期待你的评论!发表评论
昵称: 网址: 验证码: 点击我更换图片
最新评论

本文标签

广告赞助

能出一分力是一分吧!

订阅获得更多模板

本文标签

广告赞助

订阅获得更多模板