匍匐、抓取、索引、收录，指的都是什么？-百分百源码网

匍匐、抓取、索引、收录，指的都是什么？

发布时间：08/01 来源：未知浏览：关键词：

一位读者在蜘蛛抓取配额是什么这篇帖子留言：

不对呀，这个index标签，是指通知蜘蛛能够抓取该页面，那么noindex不就是不允许抓取该页面吗？！那么为什么文章后来的几个阐明里有“noindex标签不能节俭抓取份额。搜索引擎要晓得页面上有noindex标签，就得先抓取这个页面，所以并不节俭抓取份额。”

留言阐明，这位读者并没有太明确什么是抓取，什么是索引，index和noindex标签的意思又是什么。noindex标签不是不允许抓取该页面，是不允许索引该页面，这两者是不同的意义，有不同的功用。看SEO有关博客和论坛时能觉得到，很多SEO并没有了解匍匐、抓取、索引、收录这些概念到底指的是什么，区别在哪，noindex、nofollow、robots文件的功用又是什么。对这些概念没有精准了解，解决大型网站构造，决议什么页面须要被抓取，什么须要被索引，哪些页面须要制止抓取、索引等等状况时，就很难明确该怎样做。甚至就像抓取配额那篇帖子的很多留言说的，提到这些状况的解决时，基本看不懂在说什么。这么根本、重要，又比拟容易混同的SEO概念，我认为以前在博客里写过了，看了留言，翻翻以前帖子才晓得，原来以前没写过。SEO实战明码书里是有写的，但SEO每天一贴里并没有写过。今天补上。匍匐是什么？匍匐指的是搜索引擎蜘蛛从已知页面上解析出链接指向的URL，而后沿着链接发现新页面（也就是链接指向的URL）的过程。当然，蜘蛛并不是发现新URL马上就爬过去抓取新页面，而是把发现的URL寄存到待抓地址库中，蜘蛛依照未必次第从地址库中提取要抓取的URL。抓取是什么？抓取是搜索引擎蜘蛛从待抓地址库中提取要抓的URL，拜访这个URL，把读取的HTML代码存入数据库。蜘蛛的抓取就是像阅读器一样翻开这个页面，和用户阅读器拜访一样，也会在效劳器原始日志中留下记载。索引是什么？索引指的是将一个URL的信息停止整顿，存入数据库，也就是索引库，用户搜索时，搜索引擎从索引库中提取URL信息并排序展示出来。索引的英文是index。索引库是用于搜索的，所以被索引的URL是能够被用户搜索到的，没有被索引的URL用户在搜索后果中是看不到的。要留意的是，所谓“一个URL的信息“，并不限于蜘蛛从URL上抓取来的内容，还有来自其它起源的信息，如外部链接、链接的锚文字等。有的时分，索引库中对于这个URL的的信息，基本没有从这个URL抓取来的内容，但搜索引擎晓得这个URL的存在，并且有一些其它信息。抓取和索引不是一回事。收录是什么？我个人感觉收录和索引没有区别。只不过收录是从搜索用户角度看的，搜索时能找到这个URL，就是这个URL被收录了。从搜索引擎角度看，URL被收录了，也就是这个URL的信息在索引库中存在。英文并没有收录这个词，和索援用的是同一个词index。noindex的作用是什么？页面头信息中放上meta noindex标签是通知搜索引擎不要索引这个URL，也就是用户搜索时找不到这个URL的信息，这个URL不会前往在搜索后果列表中。noindex不是通知搜索引擎不要抓取这个URL，实际上，noindex要起作用，这个URL是必需先被抓取的，不然搜索引擎怎样看到页面HTML代码中有noindex标签呢？robots文件的作用是什么？robots文件是通知搜索引擎，某些URL不要抓取。留意，这里说的是不要抓取，没说不要索引。和noindex是正相反的。nofollow的作用是什么？给链接加上nofollow属性是通知搜索引擎，不要沿着这个链接匍匐，就当这个链接不存在。留意，nofollow只是通知蜘蛛不要爬这个链接，没有说不要抓取链接指向的URL，也没有说不要索引链接指向的URL，nofollow既没制止抓取，也没制止索引。概念说过后，指出几个SEO们时常弄不明确的状况：没有被抓取的页面是能够被索引的也就是说，蜘蛛没有拜访和抓取这个页面（比方被robots文件制止抓取），这个页面却有信息存在索引库中，用户搜索时还能看到。比方，淘宝整个网站用robots文件制止百度蜘蛛抓取，但没有用noindex制止索引（如上面说的，制止抓取后，就没方法制止索引了，不抓取，就看不到noindex标签了），所以即便百度没有拜访和抓取淘宝页面，但淘宝很多页面是被百度索引的，用户能够搜到的：

百度从网上那么多链接晓得淘宝首页的存在，经过链接的锚文字也晓得这个页面题目大略是淘宝之类的，当然更晓得百度口碑里的评估数。所以即便百度蜘蛛没有抓取淘宝首页，用户还是能搜到，并且显现一些百度晓得的信息。要想百度不能前往淘宝首页该怎样办呢？取缔robots文件的制止抓取，页面上用noindex制止索引。被抓取的页面是能够不被索引的最常见的就是上面说过的，页面头信息运用noindex制止索引，页面被抓取，读到noindex后，不被索引，不会在搜索后果中前往。还有可能是由于页面内容是剽窃、转载、低品质的，搜索引擎固然抓取了页面，索引过程中检测出这些内容问题，被丢弃，没有被索引。所以页面没有被收录，通常要先审查原始日志，看看能否被抓取过，如果被抓取过，可能是内容品质问题，如果基本没被抓取，倡议先看看网站构造能否有问题。加了nofollow的链接目的页面能够被抓取和索引前面说了，nofollow既不由止抓取，也不由止索引。nofollow的作用是通知蜘蛛不要跟着这个链接爬，就当这个链接不存在，但nofollow只对这个链接起作用，对别的链接没作用，这个链接加了nofollow，不象征着别的中央就没有正常的指向这个URL的链接，只有别的中央呈现了没加nofollow的链接，目的URL还是会被发现、抓取（假如没被robotx文件制止）、索引（假如没加noindex )。上面这些概念和利用在SEO中是很重要的，如果还没看懂，我也不晓得该怎样再解释了，只能倡议再多读几遍。作者: Zac@SEO每天一贴版权属于: 中新虚构主机版权一切。转载时必需以链接模式注明作者和原始出处及本申明。

打赏