《大规模元搜索引擎技(1)》一第1章绪言

本节书摘来自华章出版社《大规模元搜索引擎技(1)》一书中的第1章，作者［美］孟卫一(Weiyi Meng)纽约州立大学宾汉姆顿分校於德（Clement T.Yu）伊利诺伊大学芝加哥分校，更多章节内容可以访问云栖社区“华章计算机”公众号查看

第1章绪言

近年来，万维网（World Wide Web，环球信息网，环球网,网络或Web）已经成为最大的信息源。世界各地的人们经常使用Web查找所需要的信息。实际上，Web已经成为人们日常生活的重要组成部分。

从1990年Web出现以来，它一直在非常迅速地发展。Web可以分为表层网（surface Web）和深层网（deep Web，也称为深网；
或hidden Web，隐藏网）。表层网是指可以公开和直接访问的，而无须通过注册、登录或搜索引擎接口的Web页面（Web page，或称为网页）集合。通常，每个这样的网页都有一个静态逻辑地址，称为统一资源定位符（Uniform Resource Locator，URL)。表层网中的网页通常被超链接（hyperlink）链接起来。通过超链接，这些网页可以被普通Web爬虫（Web crawler）　Web爬虫将在1.3.2节讨论。访问到。表层网的准确大小尚未可知，然而被索引的Web是表层网的一个子集，根据2010年8月http：//www.worldwidewebsize.com/的估计，这一子集所含的网页数目可达550亿之多。深网的网页不能被一般的Web爬虫爬取。这些网页包含的Web内容或者不能被公开访问或者是动态生成的。例如，考虑如下情形，某出版商收集了很多以数字格式存放的文章，但是没有把它们放在表层网（即没有针对它们的静态URL），访问它们只能通过出版商的搜索引擎，因而这些文章属于深网。使用数据库系统存储的数据动态生成的网页也属于深网。截至2009年［Zillman，P.，2009］，深网的网页大概有1万亿（1 trillion）。表层网和深网都在迅速扩展。

从20世纪90年代早期开始，如何帮助普通用户从Web查找到所需信息已经成为Web技术领域的中心议题之一。这些年来，众多的研究者和开发者创建了许多搜索引擎，它们已经成为深受人们喜爱的可在Web上查找所需信息的工具。搜索引擎通常是拥有一个简单查询接口的易于使用的工具。用户在搜索引擎的查询界面输入其查询——通常是反映用户信息需求的几个单词，然后搜索引擎从其文档或数据库中找出最佳匹配。根据搜索数据的类型，搜索引擎可分为文档驱动的搜索引擎和数据库驱动的搜索引擎。前者搜索文档（网页），而后者通过基于Web的搜索接口从数据库系统搜索数据项。数据库驱动的搜索引擎主要应用于电子商务，如购买汽车或书籍。本书仅关注于搜索文本文档的情形。
由于Web规模巨大且扩张快速，每个搜索引擎仅能覆盖其一小部分。例如，最大的网络搜索引擎之一的Google（http：//www.google.com/）能够搜索多达350亿网页（http：//www.worldwidewebsize.com/），但这仍然是整个Web的一小部分。人们普遍观察到的一个现象是不同搜索引擎覆盖Web的不同部分，虽然这些部分有重叠。一个增加网络搜索范围的有效方法是组合多个搜索引擎的搜索范围。执行这种组合的系统称为元搜索引擎（metasearch engine）。一个元搜索引擎可视为支持统一访问多个现有搜索引擎的系统。在一个使用元搜索引擎的典型场景中，用户提交查询给元搜索引擎，元搜索引擎将查询传递给它的成员搜索引擎；当元搜索引擎从成员搜索引擎收到返回的搜索结果时，就将这些结果合并为一个排序列表，并将它们展示给用户。
虽然本书主要介绍大规模元搜索引擎技术，但是读者了解典型的搜索引擎如何工作仍然是重要的。搜索引擎的核心技术源自计算机科学领域中所熟知的信息检索（information retrieval）或文本检索（text retrieval）。本章首先简要讨论在Web上查找信息的不同方法，然后回顾文本检索和搜索引擎技术的一些基本概念和算法。本章最后一节将给出本书其余部分的概述。