一名合格的seo工程师,一定会了解搜索引擎的工作原理,对于百度和谷歌的原理几乎差不多,只是其中有些细节不同,比如分词技术等,因为国内搜索一般都是百度,所以我们以后的课程都会针对于百度,当然,基础类的只是同样适用于谷歌!

搜索引擎的工作原理其实很简单,首先搜索引擎大致分为4个部分,第一个部分就是蜘蛛爬虫,第二个部分就是数据分析系统,第三个部分是索引系统,第四个就是查询系统咯,当然这只是基本的4个部分!

下边我们来讲搜索引擎的工作流程:

什么是搜索引擎蜘蛛,什么是爬虫程序?

搜索引擎蜘蛛程序,其实就是搜索引擎的一个自动应用程序,它的作用是什么呢?其实很简单,就是在互联网中浏览信息,然后把这些信息都抓取到搜索引擎的服务器上,然后建立索引库等等,我们可以把搜索引擎蜘蛛当做一个用户,然后这个用户来访问我们的网站,然后在把我们网站的内容保存到自己的电脑上!比较好理解。

搜索引擎蜘蛛是怎样抓取网页的呢?

发现某一个链接 → 下载这一个网页 → 加入到临时库 → 提取网页中的链接 → 在下载网页 → 循环

首先搜索引擎的蜘蛛需要去发现链接,至于怎么发现就简单了,就是通过链接链接链接。搜索引擎蜘蛛在发现了这个链接后会把这个网页下载下来并且存入到临时的库中,当然在同时,会提取这个页面所有的链接,然后就是循环。

搜索引擎蜘蛛几乎是24小时不休息的(在此为它感到悲剧,没有假期。哈哈。)那么蜘蛛下载回来的网页怎么办呢?这就需要到了第二个系统,也就是搜索引擎的分析系统。

搜索引擎的蜘蛛抓取网页有规律吗?

这个问题问的好,那么搜索引擎蜘蛛抓取网页到底有规律吗?答案是有!

如果蜘蛛胡乱的去抓取网页,那么就费死劲了,互联网上的网页,每天都增加那么那么那么多,蜘蛛怎么可以抓取的过来呢?所以说,蜘蛛抓取网页也是有规律的!

蜘蛛抓取网页策略1:深度优先

什么是深度优先?简单的说,就是搜索引擎蜘蛛在一个页面发现一个连接然后顺着这个连接爬下去,然后在下一个页面又发现一个连接,然后就又爬下去并且全部抓取,这就是深度优先抓取策略。大家看下图

在上图中就是深度优先的示意图,我们假如网页A在搜索引擎中的权威度是最高的,假如D网页的权威是最低的,如果说搜索引擎蜘蛛按照深度优先的策略来抓取网页,那么就会反过来了,就是D网页的权威度变为最高,这就是深度优先!

蜘蛛抓取网页策略2:宽度优先

宽度优先比较好理解,就是搜索引擎蜘蛛先把整个页面的链接全部抓取一次,然后在抓取下一个页面的全部链接。

上图呢,就是宽度优先的示意图!这其实也就是大家平时所说的扁平化结构,大家或许在某个神秘的角落看到一篇文章,告诫大家,网页的层度不能太多,如果太多会导致收录很难,这就是来对付搜索引擎蜘蛛的宽度优先策略,其实就是这个原因。

蜘蛛抓取网页策略3:权重优先

如果说宽度优先比深度优先好,其实也不是绝对的,只能说是各有各的好处,现在搜索引擎蜘蛛一般都是两种抓取策略一起用,也就是深度优先+宽度优先,并且在使用这两种策略抓取的时候,要参照这条连接的权重,如果说这条连接的权重还不错,那么就采用深度优先,如果说这条连接的权重很低,那么就采用宽度优先!

那么搜索引擎蜘蛛怎样知道这条连接的权重呢?

这里有2个因素:1、层次的多与少;2、这个连接的外链多少与质量;

那么如果层级太多的链接是不是就不会被抓取呢?这也不是绝对的,这里边要考虑许多因素,我们在后边的进阶中会降到逻辑策略,到时候我在详细的给大家说!

蜘蛛抓取网页策略4:重访抓取

我想这个比较好理解,就是比如昨天搜索引擎的蜘蛛来抓取了我们的网页,而今天我们在这个网页又加了新的内容,那么搜索引擎蜘蛛今天就又来抓取新的内容,这就是重访抓取!重访抓取也分为两个,如下:

1、全部重访

所谓全部重访指的是蜘蛛上次抓取的链接,然后在这一个月的某一天,全部重新去访问抓取一次!

2、单个重访

单个重访一般都是针对某个页面更新的频率比较快比较稳定的页面,如果说我们有一个页面,1个月也不更新一次。

那么搜索引擎蜘蛛第一天来了你是这个样子,第二天,还是这个样子,那么第三天搜索引擎蜘蛛就不会来了,会隔一段时间在来一次,比如隔1个月在来一次,或者等全部重访的时候在更新一次。

以上呢,就是搜索引擎蜘蛛抓取网页的一些策略!那么我们上边说过,在搜索引擎蜘蛛把网页抓取回来,就开始了第二个部分,也就是数据分析的这个部分。

数据分析系统

数据分析系统,是处理搜索引擎蜘蛛抓取回来的网页,那么数据分析这一块又分为了一下几个:

1、网页结构化

简单的说,就是把那些html代码全部删掉,提取出内容。

2、消噪

消噪是什么意思呢?在网页结构化中,已经删掉了html代码,剩下了文字,那么消噪指的就是留下网页的主题内容,删掉没用的内容,比如版权!

3、查重

查重比较好理解,就是搜索引擎查找重复的网页与内容,如果找到重复的页面,就删除。

4、分词

分词是神马东西呢?就是搜索引擎蜘蛛在进行了前面的步骤,然后提取出正文的内容,然后把我们的内容分成N个词语,然后排列出来,存入索引库!同时也会计算这一个词在这个页面出现了多少次。

5、链接分析

这一个步骤就是我们平时所做的做烦躁的工作,搜索引擎会查询,这个页面的反向链接有多少,导出链接有多少以及内链,然后给这个页面多少的权重等。

数据索引系统

在进行了上边的步骤之后,搜索引擎就会把这些处理好的信息放到搜索引擎的索引库中。那么这个索引库又大致分为以下两个系统:

正排索引系统

什么是正排索引?简单的说,就是搜索引擎把所有URL都加上一个编号,然后这个编号对应的就是这个URL的内容,包括这个URL的外链,关键词密度等等数据。

搜索引擎简单的工作原理概况

搜索引擎蜘蛛发现连接 → 根据蜘蛛的抓取策略抓取网页 → 然后交到分析系统的手中 → 分析网页 → 建立索引库

OK,这节课可算是完了。太不容易啦我,今天只是对搜索引擎工作的一个简单的讲说,因为搜索引擎的非常复杂的一个系统,不可能几十分钟就可以全方位的讲道,我们在进阶或者高级教程中会慢慢的讲到!

来源:http://www.723272.com/20120219377.html

注:相关网站建设技巧阅读请移步到建站教程频道。

详解搜索引擎的工作原理相关推荐

  1. otg usb 定位_详解USB OTG工作原理及其应用

    原标题:详解USB OTG工作原理及其应用 1994年,Intel,Compaq等七家软硬件全球知名企业为了突破当时PC使用串口和并口传输速度的限制,成立了通用串行 开发者论坛( Implemente ...

  2. 详解Google Authenticator工作原理

     详解Google Authenticator工作原理 发表于2014-09-23 08:28| 10060次阅读| 来源CSDN| 16 条评论| 作者伍昆 Google二维码Google Au ...

  3. 图文并茂详解iptables 防火墙工作原理及知识点

    防火墙相关概念 iptables相关概念以及工作原理 iptables中四表五链的原理及规则 iptables中的基本命令详解 ------------------防火墙相关概念----------- ...

  4. 干货|8款开关电路设计详解,电路图+工作原理,图文结合,秒懂

    今天给大家分享的是:开关电源电路设计.工作原理图详解. 一.开关电源简介 开关电源又称交换式电源.开关变换器,是一种高频化电能转换装置,是电源供应器的一种.其功能是将一个位准的电压,透过不同形式的架构 ...

  5. MIDle生命周期详解,以及工作原理

    当MIDlet被应用程序管理器成功地初始化之后,就开始展开了它的生命周期.MIDlet的生命周期完全由应用程序管理器控制,也就是说,当MIDlet要从一个状态变成另外一个状态时,应用程序管理器会调用对 ...

  6. 详解Oracle架构、原理、进程,学会世间再无复杂架构

    详解Oracle架构.原理.进程,学会世间再无复杂架构 学习是一个循序渐进的过程,从面到点.从宏观到微观,逐步渗透,各个击破,对于Oracle, 怎么样从宏观上来理解呢?先来看一个图,这个图取自于教材 ...

  7. 详解SYN Flood攻击原理与防范

    详解SYN Flood攻击原理与防范 SYN Flood是当前最流行的DoS(拒绝服务攻击)与DDoS(分布式拒绝服务攻击)的方式之一,它是利用TCP协议缺陷,发送大量伪造的TCP连接请求,从而使得被 ...

  8. 【科普】搜索引擎的工作原理

    昨天的文章 全球化的误区,本地化的机会 ,评论里,有人说,搜索引擎技术似乎不需要本地化,这一看就是彻底不懂这个领域的人讲的.当然,实话说,如果有人说,google在中文本地化方面做得非常好,我是可以部 ...

  9. iOS模式详解runtime面试工作

    简书:http://www.jianshu.com/p/19f280afcb24 对于从事 iOS 开发人员来说,所有的人都会答出「runtime 是运行时」,什么情况下用runtime?,大部分人能 ...

最新文章

  1. CentOS 7.5 如何升级Git实录
  2. linux标准i/o,Linux 标准I/O笔记
  3. vlc的应用之二:vlc的ActiveX及cab
  4. iOS11和机器学习CoreML库
  5. mybitas oracle.sql.clob,Oracle使用简单函数
  6. centos下安装mysql_centos下安装mysql服务器的方法
  7. 漂亮表格的CSS定义
  8. 内蒙古高考2021年成绩查询,内蒙古招生考试信息网:2021年内蒙古高考查分入口、查分系统...
  9. [css] 头部设置meta也可以做到自适应为啥还要用rem?
  10. python拉格朗日插值法_【统计学】拉格朗日插值法的一种python实现方式
  11. linux添加动态连接库,CentOS下如何添加动态链接库?
  12. python 获取当前目录,上级目录,上上级目录
  13. JavaScript 丨 你不知道的arguments
  14. OpenSSL密码库算法笔记——第6.5章 密钥协商
  15. 数值计算软件有哪些?一款国产软件非常亮眼。
  16. POI excel 添加水印 xls,xlsx
  17. 零基础新手如何学习SEO
  18. 人事考试网上报名系统
  19. 【Verilog基础】【总线协议】AHB和AHB-Lite的区别?AMBA2.0和AMBA3.0的区别?目前常见的几种AMBA协议内容?
  20. IT经理的个人宣言:做一个好男人!

热门文章

  1. 0基础开始制作微信小程序
  2. 网易蓝牙耳机怎么切换双耳_单双切换,自动秒连,真正的无感操作——360无线蓝牙耳机测评...
  3. 科学史专家们竟把中国的算盘当成最早的计算机?这个博物馆为你展示计算机2000年历史
  4. 社区共享式的机器学习——Medium翻译
  5. Linux命令英文全称学习
  6. matlab sym 画图,poly2sym之后的画图问题
  7. php抓取栏目id,phpcms v9 根据栏目id( catid ) 获取栏目名称
  8. 使用免费OA系统,让你成为职场锦鲤
  9. Qt报错unknown type name XXX
  10. Ubuntu18.04和win10双系统完美安装(dell笔记本电脑)