本节书摘来自华章出版社《大规模元搜索引擎技(1)》一书中的第1章,作者[美]孟卫一(Weiyi Meng)纽约州立大学宾汉姆顿分校於德(Clement T.Yu)伊利诺伊大学芝加哥分校,更多章节内容可以访问云栖社区“华章计算机”公众号查看

第1章 绪言

近年来,万维网(World Wide Web,环球信息网,环球网,网络或Web)已经成为最大的信息源。世界各地的人们经常使用Web查找所需要的信息。实际上,Web已经成为人们日常生活的重要组成部分。

从1990年Web出现以来,它一直在非常迅速地发展。Web可以分为表层网(surface Web)和深层网(deep Web,也称为深网;
或hidden Web,隐藏网)。表层网是指可以公开和直接访问的,而无须通过注册、登录或搜索引擎接口的Web页面(Web page,或称为网页)集合。通常,每个这样的网页都有一个静态逻辑地址,称为统一资源定位符(Uniform Resource Locator,URL)。表层网中的网页通常被超链接(hyperlink)链接起来。通过超链接,这些网页可以被普通Web爬虫(Web crawler) Web爬虫将在1.3.2节讨论。访问到。表层网的准确大小尚未可知,然而被索引的Web是表层网的一个子集,根据2010年8月http://www.worldwidewebsize.com/的估计,这一子集所含的网页数目可达550亿之多。深网的网页不能被一般的Web爬虫爬取。这些网页包含的Web内容或者不能被公开访问或者是动态生成的。例如,考虑如下情形,某出版商收集了很多以数字格式存放的文章,但是没有把它们放在表层网(即没有针对它们的静态URL),访问它们只能通过出版商的搜索引擎,因而这些文章属于深网。使用数据库系统存储的数据动态生成的网页也属于深网。截至2009年[Zillman,P.,2009],深网的网页大概有1万亿(1 trillion)。表层网和深网都在迅速扩展。

从20世纪90年代早期开始,如何帮助普通用户从Web查找到所需信息已经成为Web技术领域的中心议题之一。这些年来,众多的研究者和开发者创建了许多搜索引擎,它们已经成为深受人们喜爱的可在Web上查找所需信息的工具。搜索引擎通常是拥有一个简单查询接口的易于使用的工具。用户在搜索引擎的查询界面输入其查询——通常是反映用户信息需求的几个单词,然后搜索引擎从其文档或数据库中找出最佳匹配。根据搜索数据的类型,搜索引擎可分为文档驱动的搜索引擎和数据库驱动的搜索引擎。前者搜索文档(网页),而后者通过基于Web的搜索接口从数据库系统搜索数据项。数据库驱动的搜索引擎主要应用于电子商务,如购买汽车或书籍。本书仅关注于搜索文本文档的情形。
由于Web规模巨大且扩张快速,每个搜索引擎仅能覆盖其一小部分。例如,最大的网络搜索引擎之一的Google(http://www.google.com/)能够搜索多达350亿网页(http://www.worldwidewebsize.com/),但这仍然是整个Web的一小部分。人们普遍观察到的一个现象是不同搜索引擎覆盖Web的不同部分,虽然这些部分有重叠。一个增加网络搜索范围的有效方法是组合多个搜索引擎的搜索范围。执行这种组合的系统称为元搜索引擎(metasearch engine)。一个元搜索引擎可视为支持统一访问多个现有搜索引擎的系统。在一个使用元搜索引擎的典型场景中,用户提交查询给元搜索引擎,元搜索引擎将查询传递给它的成员搜索引擎;当元搜索引擎从成员搜索引擎收到返回的搜索结果时,就将这些结果合并为一个排序列表,并将它们展示给用户。
虽然本书主要介绍大规模元搜索引擎技术,但是读者了解典型的搜索引擎如何工作仍然是重要的。搜索引擎的核心技术源自计算机科学领域中所熟知的信息检索(information retrieval)或文本检索(text retrieval)。本章首先简要讨论在Web上查找信息的不同方法,然后回顾文本检索和搜索引擎技术的一些基本概念和算法。本章最后一节将给出本书其余部分的概述。

《大规模元搜索引擎技(1)》一第1章 绪言相关推荐

  1. 《大规模元搜索引擎技》——第1章 绪言1.1 Web上查找信息

    本节书摘来自华章出版社<大规模元搜索引擎技>一书中的第1章,第1节,作者 [美]孟卫一(Weiyi Meng), 纽约州立大学, 宾汉姆顿分校於德(Clement T.Yu),伊利诺伊大学 ...

  2. 《大规模元搜索引擎技(1)》一1.1 Web上查找信息

    本节书摘来自华章出版社<大规模元搜索引擎技(1)>一书中的第1章,第1.1节,作者[美]孟卫一(Weiyi Meng)纽约州立大学宾汉姆顿分校於德(Clement T.Yu)伊利诺伊大学芝 ...

  3. 《大规模元搜索引擎技》——1.2 文本检索概述

    本节书摘来自华章出版社<大规模元搜索引擎技>一书中的第1章,第1.2节,作者 [美]孟卫一(Weiyi Meng), 纽约州立大学, 宾汉姆顿分校於德(Clement T.Yu),伊利诺伊 ...

  4. 《大规模元搜索引擎技(1)》一导读

    前 言 当下大数据技术发展变化日新月异,大数据应用已经遍及工业和社会生活的方方面面,原有的数据管理理论体系与大数据产业应用之间的差距日益加大,而工业界对于大数据人才的需求却急剧增加.大数据专业人才的培 ...

  5. 集成搜索引擎与元搜索引擎

    搜 索引擎是开启网络知识殿堂的钥匙,获取知识信息的工具.随着网络技术的飞速发展,搜索技术的日臻完善,中外搜索引擎已广为人们熟知和使用.任何搜索引擎的 设计,均有其特定的数据库索引范围.独特的功能和使用 ...

  6. 元搜索引擎的研究和设计

    一. 引言 在互联网发展初期,网站相对较少,网页数量亦较少,因而信息查找比较容易.随着Internet的飞速发展,人们越来越依靠网络来查找他们所需要的信息,然而伴随互联网爆炸性的发展,普通网络用户想找 ...

  7. 元搜索引擎的研究和设计(计算技术研究所 李锐)

    http://blog.csdn.net/colin719/archive/2005/01/06/243144.aspx 元搜索引擎的研究和设计 计算技术研究所 李锐 colin719@126.com ...

  8. 如何成功构建大规模 Web 搜索引擎架构?

    Web搜索引擎十分复杂,我们的产品是一个分布式系统,在性能和延迟方面有非常苛刻的要求.除此之外,这个系统的运营也非常昂贵,需要大量人力,当然也需要大量金钱. 这篇文章将探讨我们使用的一些技术栈,以及我 ...

  9. lua元表和元方法 《lua程序设计》 13章 读书笔记

    lua中每个值都有一个元表,talble和userdata可以有各自独立的元表,而其它类型的值则共享其类型所属的单一元表.lua在创建table时不会创建元表. t = {} print(getmet ...

最新文章

  1. Java程序员的日常—— 《编程思想》关于类的使用常识
  2. 谷歌大罢工组织者离职:自曝不得不走,“遭遇秋后算账”
  3. 浅析ios开发中Block块语法的妙用
  4. sparksql(3)——dataframe导入json-spark.read.json()
  5. 显卡风扇不转电脑黑屏_笔记本电脑开不了机是什么原因及常见解决办法
  6. python len函数_你需要了解的最重要的Python概念
  7. html 漂亮的星空登录模板
  8. macOS录制系统声音及麦克风的三种方法
  9. Android 消息机制之 MessageQueue 消息队列
  10. 前端学习——Web版自定义2048+移动端适应
  11. Failed to compile../public/UEditor/dialogs/template/template.html 1:0Module parse failed: Unexpec
  12. Windows下NexusPHP搭建PT站过程
  13. 华为往事(十一)---华为的“中南海”
  14. nape.dynamics.InteractionGroup
  15. OGL纹理之纹理过滤器和多级渐进纹理mipmap
  16. Thymeleaf的List各类问题(后端接收对象集合)
  17. eclipse配置python解析器_Eclipse中配置Python环境
  18. 利用python写一个简单的双色球彩票系统
  19. C#求100以内的质数
  20. go敏感词过滤工具wordsfilter

热门文章

  1. 8421码 5421码 2421码 余三码
  2. 【Hive】总体标准差stddev()
  3. Java 反射操作(完全版)
  4. SQL数据更新、视图
  5. OpenStack云计算与HPC之一: 前言和OpenStack与HPC虚拟化
  6. 使用虾青素提升高密度脂蛋白,降低甘油三酯
  7. LCCUP 力扣杯2020秋季编程大赛题解
  8. 左右滑动日历(微信小程序)
  9. Arthas监控学习与分享
  10. python进行Excel处理