什么是网站robots文件?它的作用有哪些-百分百源码网

什么是网站robots文件?它的作用有哪些

发布时间：01/12 来源：未知浏览：关键词：

Robots.txt是网站治理员新建的文本文件，用于指挥网络机器人(平常是搜寻引擎机器人)怎样抓取其网站上的网页。robots.txt文件是机器人排除协定(REP)的一局部，该协定是一组Web规范，用于治理机器人怎样抓取网络，拜访和索引内容，以及将内容供给给会员。

REP还包含元机器人等指令，以及对于搜寻引擎应怎样处置链接(例如“追随”或“nofollow”)的页面，子名目或站点范畴的注明。

现实上，robots.txt文件指挥某些会员代理(网络爬行软件)可否可以抓取网站的某些局部。这些爬行指令通过“制止”或“允许”某些(或所有)会员代理的行为来指定。

根本格局：

会员代理：[会员代理名称]

制止：[不要抓取URL字符串]

这两行被以为是一个完备的robots.txt文件 - 只管一个机器人文件可以包括多行会员代理和指令(即，制止，允许，爬行推迟等)。

在拥有多个会员代理指令的robots.txt文件中，每个制止或允许法则仅适用于在该特定行分隔符集中指定的会员。要是文件包括适用于多个会员代理的法则，则爬网程序将仅关注(并遵循指令)最具体的指令组。

示例robots.txt：

下列是www.example.com网站上robots.txt的几个示例：

Robots.txt文件网址：www.example.com/robots.txt

阻止所有内容的所有网络抓取工具

会员代理： *

不允许： /

在robots.txt文件中运用此语法会告诉所有网络抓取工具不要抓取www.example.com上的任何网页，包含主页。

允许所有网络抓取工具拜访所有内容

会员代理： *

不允许：

在robots.txt文件中运用此语法可奉告网络抓取工具抓取www.example.com上的所有网页，包含主页。

阻止特定文件夹中的特定Web爬网程序

会员代理：Googlebot

制止：/ example-subfolder /

此语法仅奉告Google的抓取工具(会员代理名称Googlebot)不要抓取包括URL字符串www.example.com/example-subfolder/的任何网页。

阻止特定网页中的特定网络抓取工具

会员代理：Bingbot

制止：/example-subfolder/blocked-page.html

此语法仅奉告Bing的抓取工具(会员代理名称Bing)，以以免在www.example.com/example-subfolder/blocked-page抓取特定页面。

robots.txt怎样运作?

搜寻引擎有两个主要工作：

抓取网络以发明内容;

索引该内容，以便可以向正在寻觅信息的搜寻者供给。

为了抓取网站，搜寻引擎会关注从一个网站到另一个网站的链接 - 终究会抓取数十亿个链接和网站。这种爬行行为有时被称为“蜘蛛”。

抵达网站后但在搜寻网站以前，搜寻爬虫会查寻robots.txt文件。要是寻到一个，则爬网程序将在继续阅读页面以前首先读取该文件。因为robots.txt文件包括有关搜寻引擎应怎样抓取的信息，因而在此处寻到的信息将指挥此特定网站上的进一步抓取操纵。要是robots.txt文件并没有包括制止会员代理的流动的任何指挥(或要是网站没有robots.txt文件)，它会继续抓取网站上的其他信息。

为何需要robots.txt?

Robots.txt文件控制抓取工具拜访您网站的某些区域。虽然要是您不当心制止Googlebot抓取您的整个网站(!!)，这可能会非常惊险，但在某些状况下robots.txt文件可能会非常利便。

一些常见用例包含：

防止反复内容涌现在SERP中(请注意，元机器人平常是更好的选中)

将网站的整个局部保密(例如，您的工程团队的暂时站点)

维持内部搜寻效果页面不会涌现在公共SERP上

指定站点地图的位置

防止搜寻引擎索引您网站上的某些文件(图像，PDF等)

指定爬网推迟，以便在爬网程序一次加载多个内容时防止服务器过载

要是您的站点上没有要控制会员代理拜访的区域，则可能基本不需要robots.txt文件。

打赏