(入门)搜索引擎教程

（一）搜索的始祖和原理

　　我不同意1990年以前没有搜索的说法，尽管1990年对搜索而言是一个里程碑式的年份。

　　搜索(search或search engine)是一种古老的文化活动。搜索的第一位祖先是无名氏，他创立的搜索方式是“分类搜索”（directory,也叫目录搜索）。

　　搜索的第二位先驱是加拿大人爱伦.埃蒙塔基。1990年，爱伦.埃蒙塔基就读于蒙特利尔的麦克奇尔大学，他设计了一个叫Archie的程序，用于检索互联网上匿名的FTP（File Transfer Protocol文件传输协议）文件。尽管那时World Wide Web还没有出现，尽管现在的搜索领域充斥着日新月异的技术，所有“索引搜索”(index)的基础都架设在那个加拿大人的肩膀上。

　　如果说检索FTP文件的Archie是索引搜索的祖父，那么检索Gopher文件的Veronica就是索引搜索的祖母。Gopher类似于FTP,不过传输的是documents而不是files。Veronica于1993年在美国内华达大学被开发问世。

　　Archie和Veronica的孩子，网络漫游者（World Wide Web Wanderer），是所有索引搜索的母亲。美国麻省理工学院教授麦修.格雷（Matthew Gray）开发的网络漫游者是一个“机器人”(Robot)程序，能以人类无法达到的速度不断重复执行某项任务。专门用于检索信息的机器人程序象蜘蛛一样在网络间爬来爬去，所以索引搜索的机器人程序又称为蜘蛛程序（Spider）。

　　分类搜索的原理和技术都十分简单，但如果说它落伍过时，如果预测它将退出历史舞台，那就犯了一个天大的错误。事实是，越是简单的东西，越具有生命力。

　　我们翻开一本书，首先是目录，告诉我们某章某节在第几页。这就是分类搜索的全部原理，不过在互联网是通过链接“翻”到我们要查询的信息。

　　互联网的信息一般用“海量”来描述。爆炸式膨胀的海量信息，通常被搜索提供者分成十八类，娱乐、游戏、体育、生活、购物、健康、艺术、文学、新闻、经济、企业、电脑、教育、社科、科技、政治、社会、地区，每一类又分为若干子类，然后再层层细分。

　　分类既要尊重图书情报学分类的客观规律，又要照顾上网者的偏好习惯，结果是搜索提供者对分类的意见相当不统一。这种分歧之大，常让人怀疑互联网还有没有科学可言。游戏类和购物类，有人认为分别是娱乐类和生活类的小类，但另一些人则坚持认为它们应该是与娱乐类、生活类并列的大类。同样的现象发生在旅游和文学的归类上。人们对不到二十个大类都不能统一意见，可以想象，数十万个基本小类的归属和交叉引用，将会躁动着怎样的矛盾和冲突。

　　尽管存在着这个缺陷，分类搜索仍然是最基本、最有生命力的搜索方式，因为它忠实地体现了人类思维的基本冲动——将混乱梳理成清晰。

　　分类搜索的数据库是手工建造的，搜索活动则是分类搜索提供者和使用者对信息的共识的交流。分类搜索提供者按照自己对世界的理解构建一个庞大复杂的信息分类体系，逐个收集网站，逐条录入基本信息，一点一滴积累起一个结构分明的网站数据库。搜索者按照同样的路径层层深入，最后寻找到自己需要的信息。这个无数人天天重复的过程强化了人们对世界结构的共同认识。

　　索引搜索走的是一条完全不同的道路。就象分类搜索指的是搜索网站数据库一样，索引搜索并不是搜索整个互联网，而是搜索网页数据库，或者更确切地说，搜索网页索引数据库。

　　索引搜索就是指搜索提供者抓取了互联网数千万到数亿个网页，并对网页中的每一个文字（即关键词）进行检索，建立网页索引数据库，当搜索使用者查找某个关键词的时候，所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后，这些结果将按照与搜索关键词的相关度高低，顺序排列。

　　无论是信息的收集还是信息的查询，都通过一种复杂的技术自动完成，过程的速度常常用“亚秒级”来形容。这项凝聚了十四年来人类共同智慧的技术可以用六个字概括，抓取、存储和排列。

　　麦修.格雷孵养的那只“蜘蛛”，一个能以人类无法达到的速度不断重复执行某项任务的自动程序，自动访问互联网，沿着任何网页中的所有URL爬到其它网页，重复这个过程，并把爬过的所有网页抓取回来。

　　在本部，另一个程序对抓取回来的网页进行分析，提取相关网页信息（包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等等），按照一定的相关度算法进行系列复杂计算，得到网页与关键词的相关度（或重要性）关系，然后存储这些相关信息，建立网页索引数据库。

　　符合关键词的网页仍然有成千上万，决定索引搜索优劣的是它们按重要性大小排列搜索结果的能力。目前已普遍使用超链分析技术，除了分析索引网页本身的文字，还分析索引所有指向该网页链接的URL、AnchorText、甚至链接周围的文字。这些隐藏在后面的复杂技术告诉我们网页的质量、受欢迎程度以及与我们心中期盼结果的相关性。

　　剩下的你全知道了。输入你要搜索内容的关键词，回车，所有你需要的搜索结果在几毫秒的时间内呈现在你眼前。

（二）搜索的基本模式

　　无论搜索的技术多么复杂，无论搜索的形式多么纷繁，无论搜索的概念多么紊乱，搜索的基本模式只有三种，即：分类搜索(directory)，索引搜索(index)和书签搜索(bookmark)。

　　1994年4月，美国斯坦福大学的两名博士生，杨致远和大卫.费罗，创立了雅虎（www.yahoo.com ）。这个有点另类、有点离经叛道的名词立即引起了美国人民，甚至世界人民，的狂热，在相当长一段时间内，雅虎成了搜索的代名词。“你今天雅虎了吗？”据说一度是美国人见面的问候语。在中国的网络狂热时期，亿唐网站就用“你今天有否亿唐”作为广告语,折射出雅虎的无限辉煌。

　　雅虎搜索其实只是一个分类搜索网站，它提供的核心产品就是一个庞大的分类目录。它将信息分成十四大类，然后在十四类框架下构建层层分类的知识结构。全球说英语的人都按照雅虎的秩序认识和了解他们周围的世界。

　　在英文世界，代表性的分类搜索网站还有About.com,Looksmart.com等。

　　在中国，尽管搜狐（www.sohu.com ）是分类搜索的先驱，而且至今仍在分类搜索领域发挥着不可低估的作用，我们也不能将搜狐看成是中文分类搜索的象征。搜狐已经成功转型，成为赫赫有名的门户网站，已经不是以搜索作为主要产品的搜索网站。

　　中文分类搜索的优秀网站主要有雅虎中国（http://cn.yahoo.com）、蓝帆搜索（www.search163.com）、139探索器（www.china139.com ）和北极星（www.beijixing.com）。但谁是分类搜索的代名词，目前仍是一个谜局。而这些分类搜索网站要成为搜索的代名词，更有太多的艰辛需要付出。

　　达到一定的境界是一个问题，而保持一定的境界则是另一个问题。

　　雅虎虽然仍是分类搜索的代名词，但它已经不再是搜索的代名词。

　　1998年9月7日这一天到来时，谁也没有注意它，就象当时没有人注意1889年4月20日这一天一样。出生于1889年4月20日的阿道夫.希特勒用铁血手腕，闪电般地征服了欧洲，而在1998年9月7日推出的Google网站，用体贴人的搜索服务，经过几次网络政变后，以同样闪电般的速度开始了对互联网的独裁统治。

　　Google的主要业务是提供索引搜索服务，但现在已经取代雅虎，成为了搜索的代名词。无论你是什么人，无论你想知道什么，输入关键词，比如说“去氧核糖核酸”，回车，在0.14秒的时间里，它会告诉你369万相关的网页。技术专家和家庭主妇，已经以同样的热情在工作上和生活上依赖于这位“狗哥”。

　　Google的数据库据说有8000台服务器，存储有42亿网页的索引，每天接受2亿次搜索请求。这些数据诠释了Google这个同样有点另类、有点离经叛道的名词。Google来源于Googol，意思是1后面带有100个“0”，一个天文数字。

　　Google孕育于网络狂热的年代，但它的创始人，莱瑞.佩奇（Larry Page）和舍奇.伯利恩 (Sergey Brin)，并没有计划象大多数网络英雄那样用自己的技术开办公司。这两个并不富裕的大学生是那种内向的技术专家，他们只想将他们的技术卖给某一家搜索网站，譬如雅虎，或是一个门户。但他们遭到了冷遇。雅虎的创始人之一，大卫.费罗，敷衍了几句称赞后怂恿他们自己开办公司。“等你们发展成熟形成规模后，我们再谈吧，”他说。于是莱瑞.佩奇和舍奇.伯利恩只好在加里弗尼亚一个朋友的车库里搭建舞台，开始推销那个看上去有些狂妄而最终却改变了世界的小想法。 ——一个英雄的谢幕和另一个英雄的登场，就这样拉开了序幕。

　　在英文世界，代表性的索引搜索网站还有AlltheWeb，AskJeeves,AltaVista等等。

　　中国的索引搜索起步并不算晚。1997年10月29日，相处得不算融洽的莱瑞.佩奇和舍奇.伯利恩还在大街上到处兜售他们的BackRub搜索技术，而天网搜索（http://e.pku.edu.cn）已经在CERNET上正式向网络用户提供信息导航服务。天网搜索是国家“九五”重点科技攻关项目，由北大网络实验室开发，也许正是它出身太高贵，直到今天仍然没有以强者的形象出现在网络江湖里。

　　2003年7月，北京天网时代科技有限公司成立，发布“天网时代” 索引搜索（www.netera.com.cn）,让我们感到了一丝春天的气息。

　　但在市场的角斗场上，景象仍然惨不忍睹。中文Google与天网时代相遇，就象航空母舰邂逅小舢板。

　　中文索引搜索领域会出现什么样的结局？弱肉强食的丛林会呈现什么样的秩序？强者的淫威和民族的激情又如何获得平衡？分类搜索的硝烟已经消散，但索引搜索的竞争却充斥着太多的变数。谁也不愿后退，谁也不能后退，因为索引搜索的背后有太多的金钱，——也许还有别的。

　　值得庆幸的是，搜索世界还有一方净土，一块没有遭到外来强者觊觎的市场，这就是书签搜索(bookmark)。

　　分类搜索和引擎搜索都有一个致命的弱点，一个死穴，一个阿基里斯之踵，而且产品越成熟先进，这个弱点就表现得越明显。正是这个弱点，决定了书签搜索生存的合理性和必然性。

　　分类搜索和引擎搜索都追求信息数据库的齐全和完整。他们都试图用合理的结构或者先进的算法，最迅捷地向搜索者提供他们需要的信息，但无论如何也甩不掉那个成也萧何败也萧何的数据库包袱。你想找一个游戏网站看看，很好，分类搜索会让你一次一次在再分类的岔路口作出选择，到了目的地，还会负责任地向你推荐数百个良莠不齐的同类网站；引擎搜索则会在0.001秒的时间里，向你推荐8950万个与游戏相关的网页，当然它会按照它认为的重要性大小排好顺序。

　　而你其实只想找一个象17173那样的游戏门户或者象联众那样的棋牌游戏。

　　书签搜索就是要解决这道搜索难题。它的理论根据是，80%的网络用户80%的时间都在使用20%的网站，书签搜索就是让你方便地找到那20%的网站。如果你在书签搜索网站点击游戏，那些关于游戏各个方面的一流网站都在那里。

　　目前，提供书签搜索服务的网站主要有新浪（http://dir.sina.com.cn/jinpin/index.htm ）、百度（http://site.baidu.com ）和阿酷(www.arkoo.net )。

　　书签搜索的主要内容有著名网站导航、实用网站导航、分类网站导航以及实用信息查询四大部分。而专业的书签搜索网站，如阿酷导航(www.arkoo.net )，往往会整合新闻联播、联合邮局、多元搜索、热点关注、读者文摘、历史上的今天以及各类排行榜等网络用户经常进行的网络活动。

　　著名网站包括了一般上网者耳熟能详的那20个左右的网站，实用网站则排列了聊天、论坛、购物等16类基本网络活动的常用网站。

书签搜索的分类与目录搜索的分类差别较大。书签搜索的分类虽然离不开分类学原理，更多地却是照顾了上网者的习惯和偏好。书签搜索一般将整个信息分成七十二类左右，而不是象目录搜索分成十八类左右，进入二级页面，最多进入三级页面就能找到你需要的信息。

　　实用信息是那些你关心的股价、天气、汇率、度量衡、个人所得税计算甚至妇女安全期等等。

　　一个提供搜索服务的网站，一般都会同时提供两种或三种模式的搜索。如雅虎，提供分类搜索和索引搜索；百度，提供索引搜索和书签搜索；阿酷导航(www.arkoo.net )，提供书签搜索和多元搜索。现阶段，仅有新浪的搜索服务完整地包括了分类搜索、索引搜索和书签搜索三种基本模式。

　　一家公司的资源、能力有限，只能做某一个模式的搜索，然后外包其他模式的技术和数据库，整合到自己的网站，给搜索者的感觉就是这家公司提供了完整的搜索解决方案。搜狐，自己做分类搜索，先后或部分外包了百度和慧聪的索引搜索；Google自己做索引搜索，外包了ODP的分类搜索；阿酷自己做书签搜索，并通过多元搜索包容了百度、慧聪、Google和天网的索引搜索。

　　门户网站都提供搜索服务，但它们并不等同于搜索网站，更不能等同于搜索引擎。这就是搜狐不能作为分类搜索代表的原因，——至于为什么百度不能作为中文索引搜索的象征，我在以后将有深入分析。

　　搜索引擎是一个带来了太多混乱的概念，它有时候指索引搜索，与分类搜索相对；有时候又指整个搜索，包含了索引搜索和分类搜索。如果我们舍不得放弃这个给了网络太多烙印的词汇，我们应该知道，搜索引擎(search engine)其实就是搜索(search)，包含了分类搜索(directory)、索引搜索(index)和书签搜索(bookmark)三种基本模式。

（三）搜索的年代划分

　　对搜索进行历史分期是一个糟糕的想法。搜索包含了不同的模式，模式之间不存在质量优劣的可比性，不存在技术的升级换代，所以评价搜索作为总体的历史进步意义很容易走入陷阱。

　　搜索提供者热衷于给自己的产品贴上一个第几代的标签，潜台词是我的搜索领先于时代，比别的搜索好。

如果删除了商业炒作，心里牢记新一代搜索并不意味着比老一代搜索优秀，对搜索进行年代划分仍是一个从本质上把握搜索这个复杂概念的有效方法。

　　分类搜索是手工建造的，正是这个原因使它获得了“第一代搜索”的殊荣。无论技术怎样进步，手工建造的东西能够永保青春。

网络史上第一个分类搜索网站是1994年1月发布的银河搜索（www.galaxy.com）,而风光无限的分类搜索网站是1994年4月发布的雅虎（www.yahoo.com ）。

　　分类搜索从诞生到今天，内部基本没有太大的变化。调整分类的结构或者控制收录的内容，都不能从实质上改变分类搜索。分类搜索提供者之间的竞争，不可能通过技术创新来实现。这个角斗场上，比拼的是内力和耐心，一种不动声色却大而化之的实力。搜狐一般被认为是雅虎的学习者，甚至是模仿者。搜狐从分类搜索网站转型为门户网站，完全是识时务的正确决策，既是超越也是新生，体现了张朝阳的商业睿智。但如果我们认同搜索的战略地位，那么搜狐的转型就不是源于实力，而是源于自卑。同时，张朝阳也给搜索界，甚至是网络界，出了一个难题。在中国的网络狂热时期，几乎每个网站都做搜索，或者综合搜索（门户），或者行业搜索（垂直门户），——当然是分类搜索，因为那时大部分的网站还没有实力做索引搜索。曾经红极一时的“找到啦”网站域名，忠实地记载了当时人们对搜索的热情。但现在这些网站要么转型了，要么消亡了，仍在分类搜索领域默默耕耘的只有实力和资金都并不十分具备优势的蓝帆搜索（www.search163.com）、139探索器（www.china139.com ）和北极星（www.beijixing.com）。那么，谁将是中文分类搜索的领军人物呢？

　　今天的分类搜索和昨天的分类搜索相比，最大的差别是数据库要丰富得多。但是，你不能称它为进步。互联网的信息资源爆炸式增长，分类搜索网站有限的编辑队伍很难追上信息增长的速度。假设1994的雅虎收录了70%的网站，2004年的雅虎也许仅收录了60%的网站，尽管绝对数量已经不可同日而语。

　　分类搜索网站经营者遭遇的尴尬却给他们带来了一笔横财。分类搜索网站的商业模式很简单，向网络用户提供完备的分类网站导航服务，获得一定的访问量后，向商家出售广告位。在这个模式里，分类搜索提供者需要一个庞大的、让用户满意的网站数据库，所以收录网站是免费的，因而成为自己的成本。但太多的网站要求登录，终于有一天，心花怒放的雅虎向他们宣布：我们仍然免费收录网站，但提交者太多，请耐心等待，如果你想及时登录，请交纳99美元的优先收录费。

　　今天，90%的分类搜索提供者都学会了这一招，而且不再使用优先收录费这块遮羞布。如果你的数据库已经足够庞大，采取有偿优先收录是聪明的做法，否则，盲目实施收费登录就等于自己阻碍自己竞争力的加强，完全是东施效颦的愚行。

　　与第一代搜索稳健发展相比，“第二代搜索”，索引搜索，内部的变革要剧烈得多，竞争和淘汰也残酷得多。

　　从真正的索引搜索诞生到今天，短短十年时间内，索引搜索走过了奠基、成长、成熟、创新四个阶段。

　　那些为索引搜索奠基的先驱们不应该被忘记，他们是AllWeb,JumpStation,WWWWorm,RBSE,Architext(Excite的前身)。

　　1994年4月20日标志着索引搜索成长的开始。这一天，美国华盛顿大学学生布来恩.平克顿发布了网页爬行者（www.webcrawler.com），第一个检索全部文件文字的索引搜索。“我们的成功使进入搜索领域变得容易了，一年之内出现了象Lycos,Infoseek,Opentext这样的竞争对手。他们没有做任何革命性的创造，不过是在我们的基础进行了一些修修补补而已，” 网络爬行者不无牢骚地说。

　　1995年12月，DEC公司发布了AltaVista。这个速度超群的网站给索引搜索带来了革命性的贡献：它第一个允许用户使用自然语言进行搜索，而且第一个引进了高级搜索功能。

　　1996年5月20日，Inktomi公司发布HotBot。Inktomi源于印地安神话，这只传说中的蜘蛛将文化带给了人类。在网络里，这只蜘蛛具有强大的能力，它能够每天爬行整个网络，保证数据及时更新。

　　当网络用户变得不成熟时，索引搜索成熟了。当历史跨入21世纪，他们突然失去了一颗平常心，用宗教般的狂热盛赞他们拥有的搜索工具，声称自己的生活再也离不开它了。

　　这就是被我们亲切地称为狗哥的“Google”。

　　1998年9月7日，Google的两位创始人和他们仅有的一位雇员宣告了这位网络“上帝”的诞生。

　　这是一个传奇吗？是，也不是。很多人都以为比尔.盖茨是一位天才的发明家，独步天下创造了操作系统，结果暴富。——其实不是，他的技术谁都可以达到，他成功是因为他实践了一些基本的商业原则。Google也一样，它引以为自豪的网页排序技术（PageRank）和超链分析技术（Hypertext- Matching Analysis）并不是高不可攀，它成功，是因为它专注，因为它体贴人的服务。

　　索引搜索的创新并不是在它成熟后才开始的。诞生于1997年8月的北极光（Northernlight）第一个开发了对搜索结果的自动分类技术。尽管北极光的公共搜索已于2002年1月 16日关闭，这种创新具有深远意义。你在搜索框里键入“传奇”，搜索结果会是什么？几乎全部是游戏。但你实际上想找的是发生在河南省辉县的一些周朝传奇故事。北极光的努力最后变成了集群技术（Advanced Documents Clustering Technology或叫自动分类技术）。目前代表性的网站有发布于2000年6月的Vivisimo.com。

　　在中国，第二代搜索市场完全是一个不设防的领域。得到国家资助的天网搜索（http://e.pku.edu.cn）由北京大学网络实验室开发，1997年10月29日开始提供搜索服务。但由于体制的原因，天网搜索整整花了六年时间才走出实验室，蹒跚着面对搜索巨人中文Google。

　　在资金和技术上有实力对抗中文Google的百度和慧聪，仅在第二代搜索市场短短停留便匆匆转型为第三代搜索。

　　书签搜索作为第2.5代搜索登上历史舞台具有必然性。

　　你打开浏览器上网，去得最多的地方是哪里？你可能回答新浪，或是搜狐，或是中文Google，或是百度。——都错了。你去得最多的地方是你自己的收藏夹。

　　这就是书签搜索存在的生命源动力。

　　每个人的背景、爱好、追求都不一样，这就决定了收藏夹一定是千差万别的。但是，能够进入个人收藏夹的网站，一般会具备两条共性：一是反映了大多数人的普遍兴趣，二是在某一领域做得最好。

　　书签搜索实际上是一个公共收藏夹。书签搜索网站，如新浪精品（http://dir.sina.com.cn/jinpin/index.htm ）、百度网站（http://site.baidu.com ）和阿酷网址(www.arkoo.net )，在分析用户爱好和网站现状的基础上，给上网冲浪的人提供了另一种搜索乐趣——最快捷、最直观地抵达目的地。

　　新浪和百度提供书签搜索服务，折射出大网站体贴人的商业敏锐。专业书签搜索网站阿酷(www.arkoo.net) 在网络里占有一席之地，反映了书签搜索的成长历史。阿酷孕育于个人的收藏夹，后来收藏夹装不下越来越多的一流网站，便分门别类写进了随身携带的小本子。阿酷在朋友中因为善于推荐优秀网站而受到欢迎，最自然的结果是，阿酷本身成为了一个网站，一个可以分享的书签，一个公共收藏夹。

　　不象分类搜索需要庞大的手工劳动，也不象索引搜索需要复杂的网络技术，书签搜索建筑在群体的上网实践和严谨的理性分析基础上。分类搜索和引擎搜索崇拜数量，而书签搜索追求质量。正是因为这个原因，Yahoo.com和Google.com可以在中文领域攻城掠地，Chiff.com和 Startingpage.com却几乎没有几个中国人听说过。

　　竞价搜索(PayPerClick,PPC)本质上属于索引搜索基本模式，看上去也很象传统的索引搜索，但内部却存在本质差别，所以竞价搜索应该划入第三代搜索，而不能看成是第二代搜索（传统的索引搜索）增加了新功能，也不能看成是第二代搜索的创新变种。

　　竞价搜索其实是广告商和消费者（广告受众）之间的桥梁。消费者总是在寻找自己需要的产品或是服务，但提供某一类产品或是服务的厂商总有成千上万，要从这么多竞争者之中脱颖而出，显示在引擎搜索结果的第一页是一件异常困难的事情，更不要说出现在第一位。更麻烦的是，想了解电影一般信息的人，比要买某一部电影光盘的人要多得多，按照引擎搜索的算法，产品或是服务提供商网站，基本上就淹没在搜索结果的海洋里。竞价搜索解决了这个问题。它舍弃了一般信息，专注于产品和服务，并且按照广告商愿意出价的高低排列搜索结果。相对于用户导向的引擎搜索，竞价搜索是厂商导向的，所以也称为商务搜索。

　　这就是竞价搜索和索引搜索的本质差别。数据库建立，竞价搜索由厂商提交，而索引搜索通过蜘蛛程序抓取；搜索结果排序，竞价搜索按厂商出价高低决定，而索引搜索则按相关度自动生成。

　　竞价搜索和结果付费广告又是两个容易引起混乱的概念。它们的前缀形容词一致(PayPerClick,PPC或CostPerClick,CPC)，而且竞价搜索也源于结果付费广告，但竞价搜索已经发展成为一种搜索模式，不再等同于结果付费广告。Google也采用结果付费的广告形式，也就是说广告主只有在有人点击时才向Google付费，但Google并不是竞价搜索网站。

　　竞价搜索的定位决定了它不能成为综合搜索网站，不能成为网络用户的首选搜索网站，永远没有机会成为搜索的代名词。但因为竞价搜索的专注，因为它体贴地服务于那些有钱人，竞价搜索网站在经济收入上并不一定会输给索引搜索网站。到目前为止，Overture的销售收入远远高于Google，如Bancorp Piper Jaffray估测，2003年，Overture收入7亿美元，而Google收入3亿美元。这个令人兴奋的消息吸引了大量的参与者，据不完全统计，英文世界现有591家竞价搜索网站。

　　竞价搜索在搜索活动的弱势地位迫使它大量发展合作代理商，而不是积极推销自己的首页。门户，甚至个人网页成为它的合作伙伴(Partner)或代理商(Affiliate)，显示竞价搜索结果，分享广告利润。

　　标准的竞价搜索首页和标准的索引搜索首页，设计上、风格上迥然不同。标准的索引搜索首页突出的是搜索框，而标准的竞价搜索首页突出的是广告商、合作方以及管理账号，搜索框反而下降到一个不太显眼的位置。

　　竞价搜索的先驱和代表是成立于1997年9月的GoTo.com。总部位于美国加州的GoTo.com于1998年6月开始提供竞价搜索服务，拥有十万个活跃的付费广告商和一个包括雅虎、微软、Infospace、CNN在内的代理商网络。GoTo.com后来改名为Overture.com，2003 年10月7日被雅虎收购。

　　2000年1月，李彦宏和徐勇从美国回北京创立百度网络技术有限公司(www.baidu.com )；2002年8月，以商情服务起家的慧聪公司进军搜索领域(www.zhongsou.com )——民族工业的队伍里，如果这个词还能用的话，从此有了民族搜索。

　　按搜索服务的对象分，搜索可以分为公共搜索（Search）和后台搜索(Search Provider)。公共搜索直接面对你我这样普通的搜索用户，而后台搜索则服务于公共搜索网站，向他们提供技术和搜索结果。Power成了一个将情形变得复杂的词。后台搜索往往挤到了前台，而公共搜索完全有可能开发自己的技术和数据库。Google是一个典型的公共搜索网站，但2002年10月开始，它也向雅虎提供搜索结果。2004年2月18日，雅虎终止了Google的服务，不过出乎业界和观察家的意料，它没有起用已经收购的Inktomi索引搜索，而是开发了自己的索引搜索Slurp。

　　百度和慧聪以后台搜索的身份进入搜索领域，先后分别向新浪、搜狐、网易、263等门户网站提供搜索结果服务。我们在这些门户网站进行搜索，看到的结果其实是百度和慧聪提供的，——某一时期也许是台湾索引搜索Openfind.com.tw的数据。

　　进入搜索领域初期，百度和慧聪都是第二代技术。但他们很快转型为第三代，百度的时间点是2001年10月，慧聪的时间点是2003年4月。——一个有趣的现象是，百度和慧聪都在第二代和第三代之间去意徘徊。这个看似不经意的商业模式选择，其实绑缚着沉重的文化积淀。这个问题将在后面进行剖析。

　　尽管百度和慧聪在商业上十分成功，但他们并不是一家成功的搜索企业。这个沉重的话题也将在后面讨论。

　　搜狐的竞价广告（http://cpc.sohu.com）完全具备了竞价搜索的雏形，但他们狭隘地理解了自己的杰出产品，没有能够向前推进一步。以搜狐的实力，这一步应该很容易迈出。届时，竞价搜索鹿死谁手，第三代搜索谁领风骚，都还是一个未知数。

　　Overture.com声称自己拥有十万个活跃的付费广告商和一个包括雅虎、微软、Infospace、CNN在内的代理商网络。不管是哪家搜索企业，如果它有底气做出类似的声称，而不是声称自己拥有几亿网页的索引和一些花哨的技术，它就是中国第三代搜索的代表。

　　第3.5代搜索是一个突破常规思维的范例。分类搜索、索引搜索追求数量，书签搜索则反其道而行之，追求质量。似乎已经很全面了，但另一些人不这么认为。他觉得数百万个网站，数亿个网页仍不算多，于是 “多元搜索”（Meta Search Engine）诞生了。——多元搜索属于索引搜索基本模式。

　　在孕育网页爬行者（www.webcrawler.com）的那所大学里，研究生艾里克.塞尔伯格（Eric Selburg）发现，索引搜索网站越来越多，让人糊涂的是，每个网站对同一个关键词给出的搜索结果却差别很多。于是他开发了“多元爬行”（www.metacrawler.com），负责将用户的搜索请求提交给当时几个著名的索引搜索网站，然后将不同的搜索结果同时反馈给搜索使用者。这是第一个多元搜索网站。

　　目前比较优秀的多元搜索网站还有Dogpile.com、Ixquick.com、Zapmeta.com。

　　以Hotbot.com、Queryster.com为代表的组合搜索（Multi-Search）表面上类似多元搜索，其实却有本质区别。索引搜索在整个网络抓取数据后，多元搜索在索引搜索里抓取网页，而组合搜索则是将几个索引搜索的数据简单地排列在一起。

　　中国的多元搜索还没有充分发展，目前有16搜( www.16sou.com )初具多元搜索模样。一些贴有多元搜索标签的网站，如SoIQ.com、88seek.com，其实是组合搜索。

　　似乎搜索领域的重大变革都在上个世纪完成了。1998年6月，第四代搜索ODP在美国发布。

　　ODP是Open Directory Project的英文缩写，意思是“开放式分类搜索系统”。没有人给它贴上第四代的标签，几乎所有人都将它等同于分类搜索，归类在第一代搜索。其实，第四代和第一代之间的关系，有点类似共产主义与原始社会的关系。不管这种比拟是否恰当，ODP和分类搜索既有惊人的相似，也有本质的差异。——当然，ODP属于分类搜索基本模式。

　　ODP的代表性网站是美国网景(www.netscape.com) 管理的Dmoz.org。

　　ODP的诞生有点象一个堂.吉诃德喜剧。美国加州一位普通的计算机程序师，里奇.斯格仁塔（Rich Skrenta），因为不满意雅虎搜索（www.yahoo.com ），决心挑战这个商业上的巨无霸。看上去象是鸡蛋碰石头，或是螳臂当车，因为雅虎当时仅编辑队伍就有一百多人，更不要提它雄厚的资金实力。

　　但里奇.斯格仁塔成功了。他的力量来自于人民。ODP是开放资源运动的一部分，信念就是开放、共建、共享。里奇.斯格仁塔将这个网站命名为Gnuhoo.com,从名称到框架都和Yahoo.com较劲的一个分类目录搜索体系，但由自愿者编辑，供所有的人免费使用。

　　Gnuhoo.com于1998年6月5日问世，13天后，拥有了200名编辑，数据库达到2000类共27000个网站。7月2日， Gnuhoo.com改名为Newhoo.com，7月10日，Newhoo.com即拥有1200名编辑，数据库达到4200类共40000个网站。仅仅5周的时间，便取得了雅虎难以望其项背的成就。

　　五个月后，网景收购了Newhoo.com，正式将系统命名为ODP，并将网站改名为Dmoz.org。到今天，Dmoz.org拥有6万多名编辑，数据库达到59万类共计4百多万个网站。Google、美国在线（www.aol.com）、网景搜索、Lycos.com、 Hotbot.com 、Directhit.com等数百家网站都在使用ODP的数据库。

　　ODP从一个简单的想法开始，通过个人的力量，取得了如此巨大的成功，主要原因是，ODP真正体现了互联网精神，顺应了互联网的基本规律。网络里每天都在产生无数个网站，发布无数条信息，不管多有实力的公司，它有限的编辑队伍根本没有能力赶上这种爆炸式的增长。而蜘蛛程序抓取的网页永远是机器一样的冰冷。ODP适应了网络的需要，适应了信息消费者的需要，也适应了信息生产者的需要。所以，ODP成功了。

　　于是，ODP成为了互联网历史上一块耀眼的里程碑，成为了互联网精神的象征。

　　网易（www.163.com）为中国的ODP事业做出了卓越贡献，因为是它第一个将ODP这个概念介绍给了中国网络界。但是，网易并没有传播ODP的精神。直到现在，网易的ODP仅仅为网易的一个频道服务。

　　让我们期待ODP在中国的诞生吧。

　　会不会产生第五代搜索？

　　我有一个幻想，第五代搜索应该是OIP,Open Index Project，开放式索引搜索系统。

　　在搜索领域新一轮的竞争中，第二代搜索遥遥领先。作为分类搜索象征的雅虎2004年2月18日采取重大行动，雄心勃勃地对Google反攻。但是，这一天并不意味着第一代搜索的东山再起，而恰恰标志着它的没落。雅虎反攻Google，凭借的是Slurp，一个新的蜘蛛程序。即使Google被击败，按照中国武侠界的规矩，它也不算丢面子，因为是败在本门功夫下。雅虎已经放弃了分类搜索，决心做索引搜索的盟主。它声称它已经索引了60亿网页，而 Google只有42亿，它还声称它的全文检索达到500K，而Google 只有101K。

　　搜索市场的前景是迷惘的，谁也难以预料胜利者和失败者，但又是明朗的，因为搜索王国的统治者一定会是索引搜索。

　　索引搜索并不搜索整个互联网，而是搜索预先存储的网页索引数据库。不管是60亿，还是42亿，这些资源属于某几家巨头，我们进入所谓开放的网络，实际上完全依赖这些巨头。他们规定了我们可以获取哪些信息，而且还规定了我们取得这些信息的方式。这是信息的中央集权。

　　能不能有一种技术，让我们真正搜索整个网络，而不是搜索网络独裁者的数据库？如果有这一天，信息就能回归到发散式分布，回归到平民手中，而整个网络将沐浴在互联网开放、共建、共享的阳光中。

(入门)搜索引擎教程相关推荐

python菜鸟基础教程-终于懂得python入门菜鸟教程
Python语言是一种典型的脚本语言,简洁,语法约束少,接近人类语言.有丰富的数据结构,例如列表.字典.集合等.具有可移植性,支持面向过程和面向对象编程,并且开源.以下是小编为你整理的python入门 ...
python基础教程菜鸟教程-终于懂得python入门菜鸟教程
Python语言是一种典型的脚本语言,简洁,语法约束少,接近人类语言.有丰富的数据结构,例如列表.字典.集合等.具有可移植性,支持面向过程和面向对象编程,并且开源.以下是小编为你整理的python入门 ...
程序人生：黑帽seo新手入门基础教程
黑帽搜索引擎优化新手入门基础教程从原理来看,使用黑帽搜索引擎优化技术做排名,与白帽搜索引擎优化是一样的.从细化的操作来看,则有很大的不同.黑帽搜索引擎优化新手入门基础教程是概述的相关黑帽搜索引擎优化 ...
真正从零开始，TensorFlow详细安装入门图文教程！（linux）
读懂智能&未来首页专栏专题公开课 AI慕课学院爱搞机极客购申请专栏作者业界人工智能智能驾驶AI+Fintech未来医疗网络安全AR/VR机器人开发者智能硬件物联网GAIR 业界 ...
TensorFlow 真正从零开始，TensorFlow详细安装入门图文教程
https://www.leiphone.com/news/201606/ORlQ7uK3TIW8xVGF.html 读懂智能&未来首页专栏专题公开课 AI慕课学院爱搞机极客购申 ...
HTML入门基础教程相关知识
HTML入门基础教程 html是什么,什么是html通俗解答: html是hypertext markup language的缩写,即超文本标记语言.html是用于创建可从一个平台移植到另一平台的超文 ...
程序人生：黑帽seo新手入门基础教程 1
黑帽搜索引擎优化新手入门基础教程从原理来看,使用黑帽搜索引擎优化技术做排名,与白帽搜索引擎优化是一样的.从细化的操作来看,则有很大的不同.黑帽搜索引擎优化新手入门基础教程是概述的相关黑帽搜索引擎优化 ...
扫掠两条引导线_NX10 入门图文教程——异形台架（扫掠或者沿引导线扫掠）
NX10 入门图文教程--异形台架(扫掠或者沿引导线扫掠) 块,长方体,由于这个体不是对称的,所以选择长方体完成,原点开始,设置参数长方体,选择棱边端点,这个地方用长方体目的是上方的这个块与下面的块 ...
MAYA 2022基础入门学习教程
流派:电子学习| MP4 |视频:h264,1280×720 |音频:AAC,48.0 KHz 语言:英语+中英文字幕(根据原英文字幕机译更准确)|大小解压后:3.41 GB |时长:4.5小时包含 ...

(入门)搜索引擎教程

(入门)搜索引擎教程相关推荐

最新文章

热门文章