1.为什么需要搜索引擎?
什么叫搜索引擎呢?Internet是一个巨大的信息资源宝库,几乎所有的Internet用户都希望宝库中的资源越来越丰富,使之应有尽有。每天都有新的主机被连接到Internet上,每天都有新的信息资源被增加到Internet中,使Internet中的信息以惊人的速度增长。然而Internet中的信息资源分散在无数台主机之中,如果用户想将所有主机中的信息都做一番详尽的考察,无异于大海捞针。那么用户如何在数百万个网站中快速有效地查找到想要得到的信息呢?这就要借助于Internet中的搜索引擎。

2.搜索引擎使用的信息检索技术
目前搜索引擎使用的信息检索技术主要有:Robot技术、索引技术、翻译技术、转换技术、过滤技术、数据库技术、结果处理技术等。
2.1Robot技术
搜索引擎通过蜘蛛机器人自动在选定的范围内进行检索,并将所检索到的信息自动标引导入数据库中
2.2翻译技术
翻译技术主要运用于跨语言搜索引擎工作过程。如下:
用户向系统提交检索词,形成一个源语言的搜索式,系统对搜索式进行语言识别,识别出语种后,就对进行提问式的词法分析和结构分析,然后把这个分析过的搜索式翻译成各种语言的搜索式,最后把这一系列的搜索式提交给系统进行检索就可以了。
2.3转换技术
转换技术主要针对中文繁简转换出理。如下:
大陆与台湾、香港的文化背景不同,因此形成的一些词汇方面的差异。例如:
大陆词汇 录像   知识产权 磁盘   新西兰  克林顿 硅谷  
台港词汇 录影   智慧财产权 磁碟   纽西兰  柯林顿  矽谷
搜索引擎应该根据自动判别词汇的繁简编码,转成相对应的词汇意思,然后进行检索
2.4过滤技术
搜索引擎通过“关键字过滤”等过滤技术对检索到的信息进行过滤、屏蔽。
2.5结果处理技术
结果处理技术主要是将检索到查询结果,进行去重、基本信息提取、排序等操作。

3.搜索引擎分类
3.1按信息的组织方式
按照信息的组织方式,一般把搜索引擎分为目录式分类搜索引擎,机器人搜索引擎,“混合型”搜索引擎
(1)目录式分类搜索引擎
录搜索引擎是通过人工方式进行资源搜集,且采取人工方式来进行网站描述。
参照分类法的思路,按照主题建立分类索引,形成一个树形等级式的分类体系结构,建立起一套既可搜索又可浏览的等级式主题分类目录,以

超文本链接方式把资源按不同类型划分成不同的目录,各类目录下面引出属于这一类别的网站名称和网址链接以及每个网站的内容简介
目前,对于中文网站来说,最重要的分类目录有以下几个:开放式目录ODP,Yahoo!,门户搜索引擎目录搜狐、网易、新浪。
。当用户查询某个关键词,系统会在这些描述中进行搜索。由于目录是依靠人工进行整理搜索的,而且只在保存的对站点的描述中进行搜索,

因此搜索范围较小,查全率较低,对偏僻主题、新兴学科、交叉学科不能很好地涵盖,类目间的交叉又会导致重复和资源浪费。另外,由于数

据库更新速度比较慢,站点本身的动态变化不能及时地反映到搜索结果中,严重影响了查询结果的时效性。
够提供更为准确的查询结果,但收集的内容却非常有限
(2)机器人搜索引擎
搜索引擎机器人(robots), 或者说是爬行程序(crawlers)、蜘蛛程序(spiders)。
机器人(robots)事实上是一个精心设计的网站爬行程序,依照网站的连接从一个网站游历到另一个网站。根据这种自动化程序,基于预先设计

好的网站排名标准及算法,对网站进行评估排名。
查全率,精确率
(3)“混合型”搜索引擎
提供分类浏览检索和关键词检索两种途径.目前,大多数引擎都采用这种方式。

3.2按支持的语言进行分类
目前国内用户使用的搜索引擎主要有两类:即英文引擎和中文引擎。
常用的英文搜索引擎包括google、Yahoo!、MSN、Infoseek等。
常用的中文搜索引擎主要有:中文google、一搜、3721、百度、中搜、搜狐搜狗、网易等。
传统中文引擎所采用的技术:
中文分词技术;
索引技术;
繁简转换;
关键词加亮;
热词提取;
词频分析;
新词发现;
更新频率;
新一代中文搜索引擎的技术特点:
海量级数据的精确搜索;
智能信息处理—基于语义理解的文本挖掘技术;

3.3垂直搜索引擎和普通的网页搜索引擎
垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
   垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。
  整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。
    垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索…

…几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。
    举个例子来说明会更容易理解,比如购物搜索引擎,整体流程大致如下:抓取网页后,对网页商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……”然后对信息进行清洗、去重、分类、分析比较、数据挖掘,最后通过分词索引提供用户搜索、通过分析挖掘提供市场行情报告。
   垂直搜索引擎大体上需要以下技术:
    网页结构化信息抽取技术或元数据采集技术
    分词、索引
    其他信息处理技术
   垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。

4.主流中文搜索引擎简介
4.1、Google简介
http://www.google.com
Google的成功得益于其强大的功能和独到的特点:

Google检索网页数量达24亿,搜索引擎中排名第一;
Google支持多达132种语言,包括简体中文和繁体中文;
Google网站只提供搜索引擎功能,没有花里胡哨的累赘;
Google速度极快,年初时据说有15000多台服务器,200多条T3级宽带;
Google的专利网页级别技术PageRank能够提供准确率极高的搜索结果;
Google智能化的“手气不错”功能,提供可能最符合要求的网站;
Google的“网页快照”功能,能从Google服务器里直接取出缓存的网页。

Google具有独到的图片搜索功能;
Google具有强大的新闻组搜索功能;
Google具有二进制文件搜索功能(PDF,DOC,SWF等);
Google还有很多尚在开发阶段的令人吃惊的设想和功能。

4.2、百度搜索
http://www.baidu.com
百度搜索引擎拥有目前世界上最大的中文搜索引擎,总量超过3亿页以上,并且还在保持快速的增长。百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点

4.3、雅虎中国
http://www.yahoo.com.cn
雅虎在全球共有24个网站,12种语言版本,其中雅虎中国网站(www.yahoo.com.cn)于1999年9月正式开通,它是雅虎在全球的第20个网站。
Yahoo!目录是一个Web资源的导航指南,包括14个主题大类的内容
支持中国用户完成包括英文在内的38种语言搜索
4.4、中国搜索
http://www.zhongsou.com/
中国搜索(原慧聪搜索)2002年正式进入中文搜索引擎市场,2003年8月24日慧聪搜索(现中国搜索)正式推出第三代智能中文搜索引擎.特点:
海量数据:超过2亿网页的中文信息库。
高速响应:检索平均响应时间不超过0.2秒,支持500次/秒高迸发量。
智能排序:非唯一主导因素的高级人工排序
行业分类:43个行业的分类,使搜索更加精准
具备第三代智能中文搜索引擎的特点

4.5、搜狗搜索
http://www.sogou.com/
搜狗是搜狐公司于2004年8月3日推出的完全自主技术开发的全球首个第三代互动式中文搜索引擎,是一个具有独立域名的专业搜索网站--“搜狗”。以一种人工智能的新算法,分析和理解用户可能的查询意图,给予多个主题的“搜索提示”,在用户查询和搜索引擎返回结果的人机交互过程中,引导用户更快速准确定位自己所关注的内容,帮助用户快速找到相关搜索结果,并可在用户搜索冲浪时,给与用户未曾意识到的主题提示。
搜狗搜索引擎的三大特点:
  海量:全球首个网页收录量达到100亿的中文搜索引擎
  及时:每天更新5亿网页,最新资讯最快1分钟即可被检索到
4.6、奇虎社区搜索引擎
http://www.qihoo.com/
特点:
奇虎社区搜索引擎是具备Web2.0特征的垂直搜索引擎
专著于社区搜索,增强与网民的互动,强调个性化搜索。

4.7、网易搜索引擎 (http://search.163.com/)
特点:
开放式目录管理系统(ODP)
拥有超过一万个类目,超过25万条活跃站点信息,
日增加新站点信息500~1000条,日访问量超过500万次
4.8、北京大学天网中英文搜索引擎
http://e.pku.edu.cn/
收录 135 万网页和 9 万新闻组文章,
支持电子邮件查询。
无分类查询。
不支持数字关键词和URL名检索。

4.9、Openfind搜索引擎
http://www.openfind.com.tw
Openfind创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,特点:
海量数据:宣布累计抓取网页35亿,
多元排序(PolyRankTM):使用者用可以不同标准来排序查询结果

相关文章: 中文搜索引擎相关推荐

  1. 关于web前端中文站(www.lisa33xiaoq.net)侵权业余草(www.xttblog.com)相关文章的公告...

    版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/xmt1139057136/article/details/80203789 今天我无意之间使用百度搜 ...

  2. 海量DESE推动企业级中文搜索引擎走向成熟

    全文检索逸事 10G.20G.40G.80G--,近年,企业网络系统内,服务器的硬盘在以N次方的速度频繁升级,而职员却永远在抱怨机器如同老牛拖货车,"慢"得令人无法忍受. 有关调查 ...

  3. 中文搜索引擎技术揭密:网络蜘蛛

    [e800.com.cn 专稿]搜索引擎一直专注于提升用户的体验度,其用户体验度则反映在三个方面:准.全.快.用专业术语讲是:查准率.查全率和搜索速度(即搜索耗时).其中最易达到的是搜索速度,因为对于 ...

  4. 中文搜索引擎技术揭密:网络蜘蛛(四)

    来源:e800.com.cn 内容提取 搜索引擎建立网页索引,处理的对象是文本文件.对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html.图片.doc.pdf.多媒体.动态网页及其它格式等.这些文 ...

  5. 中文搜索引擎技术揭密:排序技术(五)

    来源:e800.com.cn 排序技术的发展趋势 各种搜索引擎的技术改进和优化,都直接反应到搜索结果的排序上.许多搜索引擎都在进一步研究新的排序方法,来提升客户的满意度.专业人士认为,目前的搜索引擎排 ...

  6. 发布中文搜索引擎数据库 TngouDB

    为什么80%的码农都做不了架构师?>>>    TngouDB中文索引数据库是天狗网(tngou.net)开发的中文搜索引擎数据库,用于天狗农业网的农业搜索引擎. 天狗希望基于开源的 ...

  7. dede article_eidt_action.php 5.7,织梦dedecmsV5.7后台编辑文章中文标题发布失败的解决方法...

    织梦是一款比较有名的CMS网站管理系统了,由于它用起来简单和开源受到了很多站长朋友的青睐,目前国内很多的企业站,展示站等大多数都是用这款程序二次修改搭建的了,但是这款程序因为是开源的,可能没有专门的人 ...

  8. 多吉搜索不能用了_「转载」一个纯粹的中文搜索引擎:「Doge Doge」多吉搜索

    偶然间在网上发现一个中文搜索引擎,使用了一下,感觉像是沙漠里发现了绿洲,有回到我使用Google的那个年代的感觉,没有百度那种广告竞价排名,搜索非常精准,不浪费我的搜索时间,简直就是中文版的Googl ...

  9. 百度谷歌2013年母亲节 赏析中文搜索引擎庆祝涂鸦

    在写这篇文章之前,xxx已经写过了几篇关于改百度谷歌主题的文章,想要了解的朋友可以去翻一下之前的文章 母亲节是一个子女戴德母亲的节日,现在所知最早的母亲节起源于古希腊.在这一天,古希腊人向希腊众神之母 ...

最新文章

  1. LATEX 在section层级目录上也加上虚线
  2. typecho本地上传头像_微信QQ抖音透明头像制作方法,还有不会的吗?
  3. cacti忘记密码怎么办
  4. vlan和如何建立vlan和vconifg
  5. Spring AOP源码解析(二)—— AOP引入
  6. Angular 2.x 从0到1 (五)史上最简单的Angular2教程
  7. C# aspx页面动态加载ascx用户控件 及 利用反射调用其内方法
  8. dotnet core 开发无缝兼容Http和Websocket协议的接口服务
  9. jre放到Tomcat目录并指定使用此jre的方法
  10. POJ3250(单调栈)
  11. 生意人没有“攀比”的目标,会过的很迷茫
  12. 分享一种固定页教在页面底部的方法
  13. 深入了解preventDefault与stopPropagation
  14. HTTPS时代全面到来,你准备好了吗? 1
  15. 人脸识别常用开源数据集大全
  16. sql字符串拼接,转义
  17. P1600 [NOIP2016 提高组] 天天爱跑步
  18. 向日葵远程控制第一人称3D鼠标无法操作旋转问题
  19. Win10如何玩Win7自带的游戏
  20. Office快捷键大全之三(Access快捷键上篇)

热门文章

  1. RTX51 Tiny用户指南(一)
  2. 2023年全国最新会计专业技术资格精选真题及答案1
  3. 如果打架,一定要战胜对手!
  4. mysql的左右连接 分页_Java 与 Mysql连接,并分页显示
  5. 网站推荐:检索全球范围内有趣实用的网站【持续更新】
  6. 抖音一个老人和一个机器人歌曲_抖音歌曲少年是谁唱的 最近抖音非常火的一首歌曲...
  7. docker配置python环境_PyCharm使用Docker镜像搭建Python开发环境
  8. 使用esm数据迁移报错“reason“:“Action/metadata line [1] contains an unknown parameter [_routing]
  9. 虚拟机中如何安装Arch Linux操作系统
  10. 2023北京大学计算机考研信息汇总