本文出自http://www.wenbanana.com稻草人博客,欢迎访问!

说到搜索引擎,我们就立即想到google、baidu等这些搜索引擎。其实搜索引擎的工作原理可以基本划分为3个部分:网页搜集、预处理和查询服务。大家在使用google搜索引擎时,都有一个感觉,那就是搜索结果特别快。在不到1秒的时间里,google居然就为我们找到了几千万甚至是几十亿的搜索结果。如果大家认为在这一过程里,google用不到一秒的时间内就访问了上千万个网页,那就大错特错了。其实这些呈现出来的结果都是服务器事先访问过,然后在数据库里建立索引保存起来的。搜索引擎会根据用户提交的关键字来对数据库里保存的信息进行处理、排序,最后就以列表的形式呈现给我们,这是搜索引擎基本的工作流程。

网页搜集

每一天,互联网上都可能会诞生成千上万个网页。就截止至2004年,网页的数量就达到40多亿,可想2013年,以爆发式增长的网页数目估计也达到几百亿了。搜索引擎在这一阶段,就是派出诸如“蜘蛛”这样的网页抓取程序来来搜集互联网上的所有网页。由于一个网页上存在多个超链接链接到另一个网页,那么这个“蜘蛛”程序就可以从一个网页爬向另一个网页,所有网页之间的连接,最终就形成像图一样结构,“蜘蛛”程序就通过遍历来访问互联网上的所有网页,然后为每一个网页建立一个索引,所有的索引信息都保存在一个大数据库上。说到底,其实就是对一个网页数据库进行维护。现在,有两种比较常见的维护方式。一种是“定期搜集”,搜索引擎会每个一周或者一个月来进行一次大规模的网页搜集,但这种方法存在一个问题,那就是数据库保存的网页信息不一定是最新的。另一种是增量搜集维护方式,就是在第一次使用定期搜集的方式搜集一批网页后,之后就只搜集新出现的网页,同时对上次搜集的网页进行更新,对于不存在了的网页就删除,这样的搜集方式就可以保证数据库的信息比较新。

预处理

每一次访问一个页面后,搜索引擎会对这个页面的内容进行关键字提取,例如“google搜索引擎”这一内容就会被分成google和搜索引擎这两个关键字。同时,搜索引擎还会使用某种算法来衡量网页的重要程度,目前最流行的是PageRank算法。这个算法的主要思想是,一个网页被其他网页引用的次数越多,那么这个网页就越重要。就像越多公司想聘请你,那么说明你越有价值一样是相同道理的。

查询服务

最后一步就是将搜索的结果以列表的形式展现给用户,关联越强的网页就越靠前显示。同时,显示的列表包括连接地址、标题以及网页摘要三部分。

以上就是一个搜索引擎的基本工作流程。

搜索引擎的基本工作流程相关推荐

  1. Elasticsearch基础1——搜索引擎发展史和工作流程、es/es-head/kibana的基础安装

    文章目录 一.搜索引擎 1.1 搜索引擎的发展背景 1.2 Lucene和Elasticsearch 1.3 Solr和Elasticsearch对比 1.4 数据搜索方式 1.5 搜索引擎 1.5. ...

  2. SEO笔记:搜索引擎的工作流程

    搜索引擎的工作流程: 爬行和抓取 搜索引擎派出一个能够在网上发现新网页并抓文件的程序,这个程序通常称之为蜘蛛(Spider).搜索引擎从已知的数据库出发,就像正常用户的浏览器一样访问这些网页并抓取文件 ...

  3. 【SEO学习】第一步:了解搜索引擎基本工作原理和工作流程

    我们常用的搜索引擎一般都是百度.谷歌.搜狗.360.bing这五种,对于搜索引擎的原理和工作流程应该是一样的.今天郑州SEO老冯先给大家说一下百度搜索引擎的工作原理以及抓取过程.这是SEO学习的第一步 ...

  4. SEO优化简要工作流程

    SEO技术是复杂的,知识体系也是非常庞大的,但是知识相比实战技巧,知识就显得次要了.SEO初学者往往重知识,却往往忽视其中的技巧,实战技巧也绝非短期内可积累到的.本人其实也是一个SEO新手,虽然有6- ...

  5. Linux企业级项目实践之网络爬虫(2)——网络爬虫的结构与工作流程

    网络爬虫是捜索引擎抓取系统的重要组成部分.爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份. 一个通用的网络爬虫的框架如图所示: 网络爬虫的基本工作流程如下: 1.首先选取一部分 ...

  6. 一起来学习网站SEO优化工作流程到底怎么做?

    作者介绍:大家好!我是鱿年年★→ 个人主页:鱿年年的博客主页 系列专栏:网站SEO 目录 前言 一:行业网站概况分析 二:布局关键词 三:SEO优化 1:站内优化 2:站外优化 四:网站数据的监测工作 ...

  7. 搜索引擎是如何工作的?

    作者 | 码海 责编 | 屠敏 前言 我们每天都在用 Google, 百度这些搜索引擎,那大家有没想过搜索引擎是如何实现的呢,看似简单的搜索其实技术细节非常复杂,说搜索引擎是 IT 皇冠上的明珠也不为 ...

  8. 企业舆情监测系统工作流程

    互联网时代信息传播极为高效,一个小小信息通过网络传播放大,就会成为社会舆论,对于企业来说,要时刻监测网络动态,维护品牌效益,首先就是要发现舆情,及时处理才能更好维护品牌,接下来我们简单了解舆情监测流程 ...

  9. 爬虫工作流程、请求与响应原理、requests库讲解

    爬虫工作流程.请求与响应原理.requests库讲解 爬虫分类主要分为两大板块 web爬虫(浏览器爬虫) APP爬虫(手机端爬虫) 在这两大板块中又可以把爬虫归类为聚焦爬虫和通用爬虫 聚焦爬虫:针对某 ...

最新文章

  1. java手机音乐_JAVA类(手机充电、放音乐示例)
  2. CodeForces1082G Petya and Graph 最小割
  3. php高性能sqllite,简洁的PHP操作SQLite类
  4. Windows如何读取Linux,Linux下读取Windows注册表
  5. c++使用Vigenere加解密文本的算法(附完整源码)
  6. tomcat中关于websocket的性能优化配置
  7. 什么?ES6 中还有 Tail Calls!
  8. 终于有人把数据、信息、知识讲明白了
  9. 云服务器 ECS > 安全 > 安全组 > 添加安全组规则
  10. Spring AOP与拦截器的区别
  11. vue中指令的编译过程
  12. Linux shell内核使用
  13. CF 61E 树状数组+离散化 求逆序数加强版 三个数逆序
  14. windows批处理bat脚本实现微信告警——监控系统WGCLOUD
  15. 转:adb连接手机进行调试有两种方式
  16. java重载静态方法_在Java中可以重载或覆盖静态方法吗
  17. DS1302数码管显示时--分--秒(按键可修改时间)
  18. Yolov5模型使用教程
  19. 顶刊TPAMI!目标检测中的不均衡问题综述!
  20. 日语学习-五十音浊音

热门文章

  1. 泛型数组初始化-java
  2. 编程知识汇总--3D模型文件的通用格式:FBX
  3. python字符串分割初学
  4. 关于.NET写数据到MySQL乱码的问题
  5. bzoj4247 挂饰
  6. 无线传感器网络拓扑结构
  7. linux-macbook内核,好消息:Linux内核将支持苹果笔记本键盘/触摸板
  8. 有关AGV与机器联合调度英文文献整理
  9. 电力系统中-输电、配电、变电、送电各代表什么意思
  10. CCBPM H5版本中组织结构集成以及与外部数据源同步介绍