什么是网站robots文件?它的作用有哪些
Robots.txt是网站治理员新建的文本文件,用于指挥网络机器人(平常是搜寻引擎机器人)怎样抓取其网站上的网页。robots.txt文件是机器人排除协定(REP)的一局部,该协定是一组Web规范,用于治理机器人怎样抓取网络,拜访和索引内容,以及将内容供给给会员。
REP还包含元机器人等指令,以及对于搜寻引擎应怎样处置链接(例如“追随”或“nofollow”)的页面,子名目或站点范畴的注明。
现实上,robots.txt文件指挥某些会员代理(网络爬行软件)可否可以抓取网站的某些局部。这些爬行指令通过“制止”或“允许”某些(或所有)会员代理的行为来指定。
根本格局:
会员代理:[会员代理名称]
制止:[不要抓取URL字符串]
这两行被以为是一个完备的robots.txt文件 - 只管一个机器人文件可以包括多行会员代理和指令(即,制止,允许,爬行推迟等)。
在拥有多个会员代理指令的robots.txt文件中,每个制止或允许法则仅适用于在该特定行分隔符集中指定的会员。要是文件包括适用于多个会员代理的法则,则爬网程序将仅关注(并遵循指令)最具体的指令组。
示例robots.txt:
下列是www.example.com网站上robots.txt的几个示例:
Robots.txt文件网址:www.example.com/robots.txt
阻止所有内容的所有网络抓取工具
会员代理: *
不允许: /
在robots.txt文件中运用此语法会告诉所有网络抓取工具不要抓取www.example.com上的任何网页,包含主页。
允许所有网络抓取工具拜访所有内容
会员代理: *
不允许:
在robots.txt文件中运用此语法可奉告网络抓取工具抓取www.example.com上的所有网页 ,包含主页。
阻止特定文件夹中的特定Web爬网程序
会员代理:Googlebot
制止:/ example-subfolder /
此语法仅奉告Google的抓取工具(会员代理名称Googlebot)不要抓取包括URL字符串www.example.com/example-subfolder/的任何网页。
阻止特定网页中的特定网络抓取工具
会员代理:Bingbot
制止:/example-subfolder/blocked-page.html
此语法仅奉告Bing的抓取工具(会员代理名称Bing),以以免在www.example.com/example-subfolder/blocked-page抓取特定页面。
robots.txt怎样运作?
搜寻引擎有两个主要工作:
抓取网络以发明内容;
索引该内容,以便可以向正在寻觅信息的搜寻者供给。
为了抓取网站,搜寻引擎会关注从一个网站到另一个网站的链接 - 终究会抓取数十亿个链接和网站。这种爬行行为有时被称为“蜘蛛”。
抵达网站后但在搜寻网站以前,搜寻爬虫会查寻robots.txt文件。要是寻到一个,则爬网程序将在继续阅读页面以前首先读取该文件。因为robots.txt文件包括有关搜寻引擎应怎样抓取的信息,因而在此处寻到的信息将指挥此特定网站上的进一步抓取操纵。要是robots.txt文件并没有包括制止会员代理的流动的任何指挥(或要是网站没有robots.txt文件),它会继续抓取网站上的其他信息。
为何需要robots.txt?
Robots.txt文件控制抓取工具拜访您网站的某些区域。虽然要是您不当心制止Googlebot抓取您的整个网站(!!),这可能会非常惊险,但在某些状况下robots.txt文件可能会非常利便。
一些常见用例包含:
防止反复内容涌现在SERP中(请注意,元机器人平常是更好的选中)
将网站的整个局部保密(例如,您的工程团队的暂时站点)
维持内部搜寻效果页面不会涌现在公共SERP上
指定站点地图的位置
防止搜寻引擎索引您网站上的某些文件(图像,PDF等)
指定爬网推迟,以便在爬网程序一次加载多个内容时防止服务器过载
要是您的站点上没有要控制会员代理拜访的区域,则可能基本不需要robots.txt文件。