CCbot有哪些蜘蛛
今天发明网站日志中涌现一个不太常见的CC蜘蛛,拜访名称为:CCBot/2.0 (https://commoncrawl.org/faq/),下面我们具体来理解一下CCbot有哪些蜘蛛?
一. CCbot有哪些蜘蛛?
CCbot,全称为Common Crawl Bot,是一个非营利性基金会致力于供给可以被所有人拜访和剖析的Web爬网数据的开放存储库。
二. 你怎样处置CCbot蜘蛛?
办法1. 运用robots.txt
运用robots.txt文件来允许或制止蜘蛛拜访页面的权限。robots.txt是放在网站根名目中,蜘蛛来拜访时会先查寻并查看robots.txt文件,并恪守robots协定来拜访网站上的内容,允许拜访则拜访,不允许拜访蜘蛛则脱离。
①. 不允许任何蜘蛛拜访您站点的任何局部
- User-agent:*
- Disallow:/
②. 允许任何蜘蛛拜访您站点的任何局部
- User-agent:*
- Disallow:
③. 不允许CCbot蜘蛛拜访网站的任何局部
- User-agent:ccbot
- Disallow:/
④. 允许CCbot蜘蛛拜访您站点的任何局部
- User-agent:ccbot
- Disallow:
⑤. 允许CCbot蜘蛛拜访您站点,但不允许CCbot拜访“wp-admin”文件夹
- User-agent:ccbot
- Disallow:/wp-admin
办法2. 运用元标志
可以在页面中运用元标志来帮忙控制搜寻引擎蜘蛛对您网站的拜访权限。要是您为所有页面运用模板,则可以在<head> 和 </ head> 之间增加元标志, 它将适用于运用该模板的所有页面。要是要控制特定页面,可以在<head> 和 </ head> 之间的各个页面上增加元标志 。
①. 允许所有蜘蛛拜访您的页面
- <meta name =“robots”content =“index”/>
②. 允许所有蜘蛛拜访您的网页并跟踪页面上的链接
- <meta name =“robots”content =“index,follow”/>
③. 允许所有蜘蛛拜访您的网页,但不允许他们跟踪链接
- <meta name =“robots”content =“index,nofollow”/>
④. 不允许任何蜘蛛拜访您的网页
- <meta name =“robots”content =“noindex”/>
⑤. 允许CCbot拜访您的网页
- <meta name =“ccbot”content =“index”>
⑥. 不允许CCbot拜访您的页面
- <meta name =“ccbot”content =“noindex”>
⑦. 允许CCbot拜访您的页面并跟踪更多页面的链接
- <meta name =“ccbot”content =“index,follow”>
要是你在网站日志中也发明了CCbot,不要惊慌,你接下来需要做的就是是允许它继续爬行还是制止爬行?May个人觉得这类蜘蛛没有多大的意义,一旦发明这类蜘蛛爬行比拼频繁,最佳的方式就是制止这些蜘蛛继续拜访我们的网站。