百分百源码网-让建站变得如此简单! 登录 注册 签到领金币!

主页 | 如何升级VIP | TAG标签

当前位置: 主页>网站教程>建站知识> 匍匐、抓取、索引、收录,指的都是什么?
分享文章到:

匍匐、抓取、索引、收录,指的都是什么?

发布时间:08/01 来源:未知 浏览: 关键词:
一位读者在蜘蛛抓取配额是什么这篇帖子留言:
不对呀,这个index标签,是指通知蜘蛛能够抓取该页面,那么noindex不就是不允许抓取该页面吗?!那么为什么文章后来的几个阐明里有“noindex标签不能节俭抓取份额。搜索引擎要晓得页面上有noindex标签,就得先抓取这个页面,所以并不节俭抓取份额。”
留言阐明,这位读者并没有太明确什么是抓取,什么是索引,index和noindex标签的意思又是什么。noindex标签不是不允许抓取该页面,是不允许索引该页面,这两者是不同的意义,有不同的功用。看SEO有关博客和论坛时能觉得到,很多SEO并没有了解匍匐、抓取、索引、收录这些概念到底指的是什么,区别在哪,noindex、nofollow、robots文件的功用又是什么。对这些概念没有精准了解,解决大型网站构造,决议什么页面须要被抓取,什么须要被索引,哪些页面须要制止抓取、索引等等状况时,就很难明确该怎样做。甚至就像抓取配额那篇帖子的很多留言说的,提到这些状况的解决时,基本看不懂在说什么。这么根本、重要,又比拟容易混同的SEO概念,我认为以前在博客里写过了,看了留言,翻翻以前帖子才晓得,原来以前没写过。SEO实战明码书里是有写的,但SEO每天一贴里并没有写过。今天补上。匍匐是什么?匍匐指的是搜索引擎蜘蛛从已知页面上解析出链接指向的URL,而后沿着链接发现新页面(也就是链接指向的URL)的过程。当然,蜘蛛并不是发现新URL马上就爬过去抓取新页面,而是把发现的URL寄存到待抓地址库中,蜘蛛依照未必次第从地址库中提取要抓取的URL。抓取是什么?抓取是搜索引擎蜘蛛从待抓地址库中提取要抓的URL,拜访这个URL,把读取的HTML代码存入数据库。蜘蛛的抓取就是像阅读器一样翻开这个页面,和用户阅读器拜访一样,也会在效劳器原始日志中留下记载。索引是什么?索引指的是将一个URL的信息停止整顿,存入数据库,也就是索引库,用户搜索时,搜索引擎从索引库中提取URL信息并排序展示出来。索引的英文是index。索引库是用于搜索的,所以被索引的URL是能够被用户搜索到的,没有被索引的URL用户在搜索后果中是看不到的。要留意的是,所谓“一个URL的信息“,并不限于蜘蛛从URL上抓取来的内容,还有来自其它起源的信息,如外部链接、链接的锚文字等。有的时分,索引库中对于这个URL的的信息,基本没有从这个URL抓取来的内容,但搜索引擎晓得这个URL的存在,并且有一些其它信息。抓取和索引不是一回事。收录是什么?我个人感觉收录和索引没有区别。只不过收录是从搜索用户角度看的,搜索时能找到这个URL,就是这个URL被收录了。从搜索引擎角度看,URL被收录了,也就是这个URL的信息在索引库中存在。英文并没有收录这个词,和索援用的是同一个词index。noindex的作用是什么?页面头信息中放上meta noindex标签是通知搜索引擎不要索引这个URL,也就是用户搜索时找不到这个URL的信息,这个URL不会前往在搜索后果列表中。noindex不是通知搜索引擎不要抓取这个URL,实际上,noindex要起作用,这个URL是必需先被抓取的,不然搜索引擎怎样看到页面HTML代码中有noindex标签呢?robots文件的作用是什么?robots文件是通知搜索引擎,某些URL不要抓取。留意,这里说的是不要抓取,没说不要索引。和noindex是正相反的。nofollow的作用是什么?给链接加上nofollow属性是通知搜索引擎,不要沿着这个链接匍匐,就当这个链接不存在。留意,nofollow只是通知蜘蛛不要爬这个链接,没有说不要抓取链接指向的URL,也没有说不要索引链接指向的URL,nofollow既没制止抓取,也没制止索引。概念说过后,指出几个SEO们时常弄不明确的状况:没有被抓取的页面是能够被索引的也就是说,蜘蛛没有拜访和抓取这个页面(比方被robots文件制止抓取),这个页面却有信息存在索引库中,用户搜索时还能看到。比方,淘宝整个网站用robots文件制止百度蜘蛛抓取,但没有用noindex制止索引(如上面说的,制止抓取后,就没方法制止索引了,不抓取,就看不到noindex标签了),所以即便百度没有拜访和抓取淘宝页面,但淘宝很多页面是被百度索引的,用户能够搜到的:taobao-robots.jpg百度从网上那么多链接晓得淘宝首页的存在,经过链接的锚文字也晓得这个页面题目大略是淘宝之类的,当然更晓得百度口碑里的评估数。所以即便百度蜘蛛没有抓取淘宝首页,用户还是能搜到,并且显现一些百度晓得的信息。要想百度不能前往淘宝首页该怎样办呢?取缔robots文件的制止抓取,页面上用noindex制止索引。被抓取的页面是能够不被索引的最常见的就是上面说过的,页面头信息运用noindex制止索引,页面被抓取,读到noindex后,不被索引,不会在搜索后果中前往。还有可能是由于页面内容是剽窃、转载、低品质的,搜索引擎固然抓取了页面,索引过程中检测出这些内容问题,被丢弃,没有被索引。所以页面没有被收录,通常要先审查原始日志,看看能否被抓取过,如果被抓取过,可能是内容品质问题,如果基本没被抓取,倡议先看看网站构造能否有问题。加了nofollow的链接目的页面能够被抓取和索引前面说了,nofollow既不由止抓取,也不由止索引。nofollow的作用是通知蜘蛛不要跟着这个链接爬,就当这个链接不存在,但nofollow只对这个链接起作用,对别的链接没作用,这个链接加了nofollow,不象征着别的中央就没有正常的指向这个URL的链接,只有别的中央呈现了没加nofollow的链接,目的URL还是会被发现、抓取(假如没被robotx文件制止)、索引(假如没加noindex )。上面这些概念和利用在SEO中是很重要的,如果还没看懂,我也不晓得该怎样再解释了,只能倡议再多读几遍。 作者: Zac@SEO每天一贴版权属于: 中新虚构主机版权一切。转载时必需以链接模式注明作者和原始出处及本申明。
打赏

打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,你说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

百分百源码网 建议打赏1~10元,土豪随意,感谢您的阅读!

共有157人阅读,期待你的评论!发表评论
昵称: 网址: 验证码: 点击我更换图片
最新评论

本文标签

广告赞助

能出一分力是一分吧!

订阅获得更多模板

本文标签

广告赞助

订阅获得更多模板