百分百源码网-让建站变得如此简单! 登录 注册 签到领金币!

主页 | 如何升级VIP | TAG标签

当前位置: 主页>网站教程>网站优化> 对于百度分词的查询处置以及技术详解
分享文章到:

对于百度分词的查询处置以及技术详解

发布时间:06/10 来源:未知 浏览: 关键词:
对于百度分词的查询处置以及技术详解

怎样设计一个高效的搜寻引擎?我们可以以百度所采取的技术伎俩来探究怎样设计一个实用的搜寻引擎。搜寻引擎波及到很多技术点,比方查询处置,排序算法,页面抓取算法,CACHE机制,ANTI-SPAM等等。这些技术细节,作为商业企业的搜寻引擎服务供给商比方百度,GOOGLE等是不会公之于众的。我们可以将现有的搜寻引擎看作一个黑盒,通过向黑盒提交输入,判断黑盒返回的输出大致判断黑盒里面不为人知的技术细节。
  查询处置与分词是一个中文搜寻引擎必不可少的工作,而百度作为一个典型的中文搜寻引擎不断强调其“中文处置”方面拥有其它搜寻引擎所不拥有的要害技术和优势。那么我们就来看看百度到底采纳了哪些所谓的中心技术。
  我们分两个局部来讲述:查询处置/中文分词。
  一、查询处置

  会员向搜寻引擎提交查询,搜寻引擎个别在承受到会员查询后要做一些处置,然后在索引数据库里面提取相干的信息。那么百度在承受到会员查询后做了些什么工作呢?
  1、假如会员提交了不只一个查询串,比方“信息检索 理论 工具”。那么搜寻引擎首先做的是依据分隔符比方空格,标点符号,将查询串分割成若干子查询串,比方上面的查询就会被解析为:三个子字符串;这个原理简略,我们接着往下看。
  2、假如提交的查询有反复的内容,搜寻引擎怎么处置呢?比方查询“理论工具理论”,百度是将反复的字符串当作只涌现过一次,也就是处置成等价的“理论工具”,而GOOGLE显然是没有进行归并,而是将反复查询子串的权重增大进行处置。那么是怎样得出这个结论的呢?我们可以将“理论工具”提交给百度,返回341,000篇文档,大致看看第一页的返回内容。OK。继续,我们提交查询“理论工具理论”,在看看返回效果,依然是那么多返回文档,当然这个不能注明太多题目,那看看第一页返回效果的排序,看出来了吗?次序完全没有变化,而 GOOGLE 则排序有些变动,这注明百度是将反复的查询归并成一个处置的,而且字符串之间的前后涌现次序根本不予考虑(GOOGLE是考虑了这个次序关系的)。
  3、假如提交的中文查询包含英文单词,搜寻引擎是怎么处置的?比方查询”电影BT下载”,百度的办法是将中文字符串中的英文当作一个整体保存,并以此为断点将中文切分开,这样上述的查询就切为,不论中间的英文是否一个字典里能查到的单词也好,还是随机的字符也好,都会当作一个整体来看待。至于为何,你用查询 “电影dfdfdf下载”看看效果就晓得了。当然要是查询中包含数字,也是如此代办。 
      科技有限企业通过搜寻效果归纳剖析+切词通用算法剖析的方式对百度预处置阶段的查询处置和中文分词两项技术进行了阐述、总结,要是你对数据构造、算法有一定理解的话,了解起来会相对容易些;个人感觉,得出正向最大匹配算法不足正确,不管是专用词典还是普通词典里的词,都是有不一样权重的,这根搜寻频率应当有一定关系,基于这点,在涌现多个专用词典里的词时,是需要采纳双向最大匹配算法来检测到底哪一个专有词汇应当先被切出来,当然,这是个人猜想,有待讲究。
  了解分词技术对SEO工作拥有极大意义,可以从科学的角度来剖析要害词,并构思要害词部署战略;要是正向最大匹配算法的结论是准确的,那根本上可以判定,切词后的分词的权重是按照正向排序的
  还想搞明确的是专用词典和普通词典,哪一个权重会更高?
  随着搜寻经济的突起,人们开端越加关注环球各大搜寻引擎的机能、技术和日流量。作为公司,会依据搜寻引擎的知名度以及日流量来选中是否要投放广告等;作为普通网民,会依据搜寻引擎的机能和技术来选中本人喜好的引擎查找材料;作为技术人员,会把有代表性的搜寻引擎作为研究对象。搜寻引擎经济的突起,又一次向人们证实了网络所储藏的庞大商机。网络脱离了搜寻将只剩下空洞紊乱的数据,以及大量期待去费劲开掘的金矿。

打赏

打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,你说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

百分百源码网 建议打赏1~10元,土豪随意,感谢您的阅读!

共有152人阅读,期待你的评论!发表评论
昵称: 网址: 验证码: 点击我更换图片
最新评论

本文标签

广告赞助

能出一分力是一分吧!

订阅获得更多模板

本文标签

广告赞助

订阅获得更多模板