百分百源码网-让建站变得如此简单! 登录 注册 签到领金币!

主页 | 如何升级VIP | TAG标签

当前位置: 主页>网站教程>网站优化> 搜寻引擎的智能化关于百度、360、搜狗无疑是庞大的技术更新
分享文章到:

搜寻引擎的智能化关于百度、360、搜狗无疑是庞大的技术更新

发布时间:05/31 来源:未知 浏览: 关键词:

总体而言,搜寻引擎面对下列挑衅。  

1、页面爬行需要迅速且全面  

互联网是一个动态的内容网络。天天,无数的页面被更新和新建,无数的会员发表内容并彼此交换,要返回到最有用的内容,搜寻引擎需要抓取新的页面,但是因为页面数目庞大,搜寻引擎蜘蛛需要很长工夫才能更新数据库中的页面一次。当搜寻引擎诞生时,捕捉和更新周期平常以月为单位进行盘算,这就是为何谷歌在2003年以前每个月都有一个大的更新。  

此刻主流的搜寻引擎已经能够在几天内更新重要的页面,并且在几小时甚至几分钟内将包括在高权重网站上的新文档。然而,这种迅速的包含和更新只能局限于高权重的网站,很多页面在几个月内没有被从新爬行和更新也是很常见的。  

为了返回比较好的效果,搜寻引擎还必须尽可能全面地抓取一个页面,这需要解决很多技术题目,有些网站不利于搜寻引擎蜘蛛爬行和爬行,如网站链接构造的缺点、Flash、Java脚本的宽泛运用,或者会员在访问该局部以前必须登录的内容,都添加了搜寻引擎爬行内容的难度。  

2、海量数据存储  

一些大型网站在一个网站上有数百万、数千万、甚至数亿的页面,你可以想象网络上所有网站的页面加起来有多少数据,搜寻引擎蜘蛛抓取页面后,还必须有效地存储这些数据,数据构造必须合理,拥有很高的可扩展性,对写入和访问速度的要求也很高。  

除了页面数据,搜寻引擎还需要存储页面之间的链接和大量的历史数据,这是会员没法想象的。据预计,百度具有340多万台服务器,谷歌具有数十个数据核心和数百万台服务器,这种大规模的数据存储和访问不可以免地会面对很多技术挑衅。  

我们经常在搜寻效果中看到排名高低波动,没有显明的缘由,我们甚至可以刷新页面并查看不一样的排名,有时,网站数据也会遗失,这可能与大规模数据存储和同步的技术难点有关。  

3、索引处置迅速、有效且可扩展  

在搜寻引擎对页面数据进行爬行和存储后,还需要进行索引处置,包括链接关系盘算、正向索引、反向索引等。因为数据库中的页面数目巨大,施行pr等迭代盘算既费时又费劲,为了供给相干及时的搜寻效果,只需抓取是没有用的,同时也需要做许多的索引盘算,由于在任何时候都会增加新的数据和页面,所以索引处置也应当拥有良好的可伸缩性。  

4、迅速正确的查询处置是普通会员独一能看到的搜寻引擎步骤

当会员在搜寻框中输入一个查询并单击“搜寻”按钮时,他平常会在不到一秒钟的工夫内看到搜寻效果。最简略的外表处置现实上波及非常复杂的背景处置。在最后的查询阶段,比较重要的题目是怎样在不到一秒钟的工夫内从数十万、数百万甚至数千万个包含搜寻词的页面中迅速找到比较合理、相干的页面,并依据相干度和权限进行排列。  

5、判断会员用意和人工智能  

应当说,搜寻引擎的前四个挑衅已经能够更好地解决,但是对会员用意的判断还处于低级阶段。不一样的会员搜寻雷同的查询词,可能会查找不一样的内容。例如,在搜寻“苹果”时,会员是想晓得苹果的果实,还是苹果电脑,还是想晓得电影“苹果”的信息?或者他想听“苹果”?没有高低文,没有对会员的个人搜寻习惯的了解,他就没法判断。  

搜寻引擎当前正在依据会员的搜寻习惯、历史数据的积攒和语义搜寻技术来判断搜寻用意、了解文档的真实含义和返回更相干的效果。

打赏

打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,你说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

百分百源码网 建议打赏1~10元,土豪随意,感谢您的阅读!

共有156人阅读,期待你的评论!发表评论
昵称: 网址: 验证码: 点击我更换图片
最新评论

本文标签

广告赞助

能出一分力是一分吧!

订阅获得更多模板

本文标签

广告赞助

订阅获得更多模板