据中国互联网络信息中心统计,目前搜索引擎是仅次于电子邮件的第二大Internet的应用。搜索引擎技术的研究与应用逾来逾广,正成为计算机工业界和学术界争相研究和开发的对象。

搜索引擎虽然品种繁多、功能不一,但是它们的总体结构和基本的工作原理都是一样的。

每个搜索引擎都有三个部分组成: (1)在Internet上采集信息的"机器人";(2)对采集到的信息进行索引并建立索引库的索引器;(3)完成用户提交查询请求的网页检索器。
图1.1 搜索引擎总体结构图
1、"机器人"
  "机器人"实际上是一些基于Web的程序,通过请求Web站点上的HTML网页来对采集该HTML网页,它遍历指定范围内的整个Web空间,不断从一个网页转到另一个网页,从一个站点移动到另一个站点,将采集到的网页添加到网页数据库中。"机器人"每遇到一个新的网页,都要搜索它内部的所有链接,所以从理论上讲,如果为"机器人"建立一个适当的初始网页集,从这个初始网页集出发,遍历所有的链接,"机器人"将能够采集到整个Web空间的网页。
2、索引器
  索引器负责将"机器人"在Web空间采集到的信息建立索引并存放在索引数据库中,索引数据库可以采用通用的大型数据库,如ORACLE、Sybase等,也可以自己定义文件格式进行存放。为了保证索引数据库信息与Web内容的同步,索引数据库必须定时更新,更新频率决定了搜索结果的及时性,索引数据库更新是通过启动"机器人"对Web空间重新搜索来实现的。
3、网页检索器
  当用户使用搜索引擎查找信息时,网页检索器接收用户提交的查询条件,并完成对用户查询请求的响应。网页检索器是一个在Web服务器上运行的CGI程序,它首先接收用户提交的查询条件,根据查询条件对索引库进行查找并将查询到的结果返回给用户。
  有的系统在返回结果之前对网页的相关度进行了计算和评估,并根据相关度进行排序,将相关度大的放在前面,相关度小的放在后面;也有的系统在用户查询之前已经计算了各个网页的网页等级(Page Rank),返回查询结果时将网页等级大的放在前面,网页等级小的放在后面。典型的如大名鼎鼎的Google(http://www.google.com)就是采取这种策略,它的PageRank方法还获得国际专利,因为PageRank的客观性,从而使得由它搜索出来的结果比较公正,不会因为哪家公司使用伎俩,而导致它的网页排在结果的前边,而是根据计算出来的等级值,排在相应的位置。
  国内目前做得最为出色的应该首推百度(www.baidu.com),在中文信息搜索方面,其速度不亚于google,虽然其信息覆盖没有达到google那样的规模。(注:google最早由美国斯坦福大学计算机科学系的几名博士生研制出来,目前的信息量约20亿7千万个Web页面,支持世界上大多数流行语言,在这方面,百度颇有不及)。

网络搜索引擎原理简介相关推荐

  1. 网络通讯原理简介以及演示通讯过程

    OSI网络七层参考模型 这是7层网络参考模型 非实现层面的 TCP/IP协议实现 TCP/IP协议实现了七层网络模型 将展示层和会话层合并到了应用层 微信.QQ或tomcat进程都属于应用层 该层的常 ...

  2. 网络爬虫——原理简介

    全面剖析网络爬虫(笔记) 抓取网页 深入理解URL URI :Universal Resource Identifier(通用资源标识符)的缩写,Web 上每种可用的资源,如HTML文档.图像.视频片 ...

  3. Google搜索引擎工作原理简介

    实在是写不出来高质量的原创文章,今天再次转载一篇网络上看到的文章吧,叫Google搜索引擎工作原理简介,其中比较详细的介绍和分析了google搜索引擎相关工作机制,下面是原文内容: 这篇文章是基于Go ...

  4. DL之CNN:卷积神经网络算法简介之原理简介——CNN网络的3D可视化(LeNet-5为例可视化)

    DL之CNN:卷积神经网络算法简介之原理简介--CNN网络的3D可视化(LeNet-5为例可视化) CNN网络的3D可视化 3D可视化地址:http://scs.ryerson.ca/~aharley ...

  5. 网络搜索引擎的工作原理

    今天一时兴起,想知道能否在Google和Baidu上搜到我的Blog,结果乘兴而去,败兴而归,什么也没有.那么网络搜索引擎是是怎么工作的呢?我的Blog怎样才能被Google检索呢?通过Google的 ...

  6. 学习笔记之搜索引擎—原理、技术与系统

    搜索引擎 - 原理.技术与系统 Search Engine: Principle, Technology and Systems  李晓明 闫宏飞 王继民 著 by Li Xiaoming, Yan ...

  7. WebServer 软件原理简介

    一. B/S结构  和 C/S结构简介 1.1 C/S结构 所谓C/S 就是 Client - Server , 在Client端有个界面程序.   User会通过这个Client端程序来读写  存放 ...

  8. 搜索引擎原理和简单过程【转】

    搜索引擎原理 原文链接:http://www.cnblogs.com/seaspring/ 1.1 常用的非结构化数据检索方法 按照上节所说,搜索引擎主要处理的是非结构化数据,故名思议,非结构化数据的 ...

  9. Redis分布锁原理简介和实现过程

    前言 这篇文章介绍下如何实现redis来实现分布式锁及原理简介 原理简介 redis 获取分布式锁使用lua脚本的命令 setnx pexpire(提供了毫秒的过期时间,expire提供了基于秒的过期 ...

最新文章

  1. 硬盘提示RAW的文件找回方法
  2. IP Messenger程序
  3. sass和less的优缺点
  4. C#ListBox对Item进行重绘,包括颜色
  5. 论文浅尝 | Iterative Cross-Lingual Entity Alignment Based on TransC
  6. MAC版CRT使用心得
  7. android 手环获取步数_荣耀手环5 篮球版深度体验:专业数据精细到“毛孔”
  8. 个人觉得非常好用的mysql客户端工具的HeidiSQL
  9. 【0x50 动态规划】Mobile Service【线性DP】
  10. Mixly(米思齐)图形化编程工具
  11. Java中获取当天的0点时间和明天的0点时间
  12. linux 常用的shell脚本
  13. 这种人生最美的场面吸引着千万男孩女孩的憧憬和向往
  14. 思科三层交换机开启ipv6路由功能_网络工程实战之三层交换机配置IPv6 DNS 示例...
  15. 输出 Java 数组最简单的方式
  16. Calendar判断指定时间是周几、上下午、月份的简单运用
  17. LeetCode 2296. 设计一个文本编辑器(双栈)
  18. java分层窗格_Swing拆分窗格控件JSplitPane使用详解
  19. Python在Jupyter上使用HMM进行中文分词,将新闻文本分词后提取其中的高频词
  20. 经济学人(The Economist)今日导读

热门文章

  1. 安卓图表引擎AChartEngine 使用
  2. 0.96寸4针OLED的使用与驱动模块
  3. 毕业设计(源代码+论文+PPT)
  4. 【点宽专栏】虚拟遗憾最小化(CFR)之量化择时与交易
  5. vue实战: 第二部分
  6. Excel文档生成方案
  7. python post 请求json文件_requests的post请求提交表单、json串和文件数据讲解
  8. 量化风控从入门到放弃
  9. t-sql的楼梯:超越基本级别6:使用案例表达式和IIF函数
  10. 冰雪奇缘--用爱酿就一部经典