第六章 搜索引擎

搜索引擎(search engine)就是网络信息资源检索与利用的核心工具
目录:

4.1 搜索引擎原理与分类

搜索引擎是一个提供信息“检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。
搜索引擎常常是用户利用网上资源的第一途径。

4.1.1 工作原理

从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。
大多数搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。
搜索引擎也不能真正理解网页上的内容,它只能机械的匹配网页上的文字

4.1.2 工作特点

搜索引擎与其它文献数据库相比,其中一个最重要的不同是搜索引擎通过计算机自动完成信息资源的发现、标引和入库。
搜索引擎普遍存在以下缺点:
(1)搜索结果中广告、垃圾网站和死链比较多。
(2)没有统一的网络信息分类标准,令网络用和死链比较多。
(2)没有统一的网络信息分类标准,令网络用户无所适从。
(3)对资源不具有选择和价值判断的能力,排序结果不理想,难以搜索动态网页,查全率下降。
(4)与学术型数据库接口少,搜索出的有效学术信息大部分只能浏览目录信息,不能下载全文。

4.1.3 根据数据检索内容划分的搜索引擎类型

1.综合型
综合型搜索引擎在采集标引信息资源时不限制资源的主题范围和数据类型,又称为通用型检索工具。例如常见的Google、新浪、搜狐和网易,网罗百科,信息种类繁多。搜狐和网易,网罗百科,信息种类繁多

2.专题型
专题型搜索引擎专门采集某一主题范围的信息资源或某一类型信息,并用更为详细和专业的方法对信息资源进行标引描述。

3.特殊型
特殊型检索工具是指那些专门用来检索图像、声音等特殊类型信息和数据的检索工具

4.1.4 根据数据类型划分的搜索引擎类型

1.全文索引
是目前广泛应用的主流搜索引擎,国外代表有Google,国内则有著名的百度

2.目录索引
顾名思义就是将网站分门别类地存放在相应的目录中如中国的搜狐、、Yahoo。录中如中国的搜狐、、Yahoo

3.元搜索引擎
通过调用其它搜索引擎的检索功能来实现网络资源的查询

4.门户搜索引擎
如AOLSearch、MSNSearch等,虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎

4.2 搜索引擎的使用技巧

4.2.1 使用高级搜索和个性化设置


4.2.2 使用类别中搜索

许多搜索引擎都显示类别,一般都将常用类别(如新闻、网页、贴吧、知道、MP3、图片、视频、地图等)列在搜索框的上方或下片、视频、地图等)列在搜索框的上方或下方,而点击搜索类别后面的“更多”就可以查看非常用类别

4.2.3 注意搜索返回的结果

搜索结果页面除了搜索到网页或者文件的链接与说明,还有很多有价值的参考信息如:
分类相关搜索搜索结果情况搜索方式转换结果页面跳转

4.2.4 注意检索策略的使用

搜索引擎本质上也是一种数据库检索。因此针对数据库的检索策略,对搜索引擎几乎都可以使用,比如逻辑组配、条件限制、精确可以使用,比如逻辑组配、条件限制、精确匹配、通配符等。如果检索熟练,可以直接使用各种的检索策略;如果不熟练,建议多采用高级检索,因为高级检索选项本身就是检索策略的体现。

4.2.5 注意检索词的选用

搜索引擎不具备智能识别能力,只能针对查询词在现成的数据库中机械地搜寻与之相匹配的搜索词。因此,要准确、高效地查询信息,最关键之处就是要选择合适的查询关键词。
1、反映信息特征
2、表达信息要准确
3、表述信息要多元
4、考虑要查找的网页将以什么方式编写,避免使用自然语言

4.2.6 其他一些技巧

1、多个搜索引擎交替使用
2、需要查询经典的翻译时,可以同时使用中外文搜索词
3、实用信息可直接用搜索引擎解决网民经常进行查询的主要实用信息项,包括万年历查询、机票查询、火车票查询、IP地址查询、手机号查询、星座、天气等,几乎各种搜索引擎都可以直接提供答案或提供链接。

4.3 主要搜索引擎

4.3.1 Google

网址:http://www.google.com

4.3.2 百度

网址:http://www.baidu.com/

4.3.3 360搜索引擎

网址:http://www.so.com

4.3.4 搜狗搜索引擎

4.3.5 几款常用搜索引擎比较

Google是按照网页级别(PageRank)来收录的,只要网站有一定的网页级别,Google会才会收录,搜索结果按相关度排序;整合了全球范围的信息,功能强大,是易用性最强的搜索网站,搜索速度快而且提供了最丰富的高级搜索功能;适合专业人员。

百度是最大的中文搜索引擎,常用于生活话题和一般问题搜索,但搜索结果中广告、垃圾网站和死链比较多。

雅虎网页搜索不错,但死链率较高,而且缺少一些应有的高级搜索功能。
搜狗比较适用于电影、音乐、软件的搜索。

4.4 特色搜索引擎介绍

每个搜索引擎都有优缺点,根据不同的需要,应该使用不同的搜索引擎。如果要搜索英文内容,有网友推荐如下:上网随便索英文内容,有网友推荐如下:上网随便逛逛就用dmoz,平时搜索就用google,有问题就问ask,要做特定的主题搜索就用search.com。

4.4.1 InfoSeek 全文搜索

速度快,搜索结果给出URL网址,并显示该网址的大小。允许用户使用大写字母和成语。Infoseek现在还免费提供如股票报价、公司资料、E-mail地址、类似字典的各种参考资料以及邮政编码指南等资料。
在全文检索(WebSites选项)时可直接使用简繁中文,但收录内容不够丰富。

4.4.2 AltaVista全文搜索

网址:altavista.digital.com
用户介面友好,在线帮助文件完整,搜索速度快,能够识别大小写和专用名词,数据库最大,对Web和Usenet都能搜索到。用户最大,对Web和Usenet都能搜索到。用户也能将搜索的结果页翻译成几国语言。
出现同一网站的网页次数太频繁。

4.4.3 Ask自然提问搜索

网址:www.ask.com
支持自然提问搜索,它的数据库里储存了超过1000万个问题的答案,只要你用英文直接输入一个问题,它就会给出问题答案。当使输入一个问题,它就会给出问题答案。当使用者遇到一些属于事实型、原理型的问题时,使用Ask是最方便的。
对于主观型问题,不一定能得到较好的答案。

4.4.4 Dmoz(ODP)目录搜索

网址:www.dmoz.org
适用于分类浏览,收录了40多万子目录和近300万个网站,dmoz使用起来非常方便。它还用一颗小星星推荐各个目录下最好的网站。颗小星星推荐各个目录下最好的网站。
ODP的编辑人员均为志愿者,收录网站的时间较长,分类目录的质量难以控制

4.4.5 search元搜索引

网址:www.search.com
适合特定主题搜索,它收集了800多种专业搜索引擎和数据库,共分为15个大主题,每个大主题又分许多小主题。

4.4.6 Alltheweb全文搜索

网址:www.alltheweb.com
支持225种文件格式搜索,其数据库已存有49种语言的21亿个Web文件,而且以其更新速度快,搜索精度高而受到广泛关注。新速度快,搜索精度高而受到广泛关注。
对中文支持不是很好,网页摘要目前还不是动态生成造成用户无法根据摘要选择最想要的结果。

4.5 学术搜索引擎介绍

4.5.1 google学术搜索(Google Scholar)

(http://scholar.google.com/)

4.5.2 Vascoda

(http://www.vascoda.de/)
Vascoda是一个交叉学科门户网站的原型。它注重特定主题Vascoda是一个交叉学科门户网站的原型。它注重特定主题的聚合,集成了图书馆的收藏、文献数据库和附加的学术内容。

4.5.3 Web result

(http://www.a9.com)

4.5.4 free PDF search

(http://www.pdfgeni.com/)
是一个专门的PDF格式文档搜索引擎,支持多语言,输入你想找的PDF文档,点击搜索即可。在搜索的结果中,点击文搜索即可。在搜索的结果中,点击文搜索(http://search.cnki.net/)

4.5.5 万方数据知识脉络分析

(http://trend.wanfangdata.com.cn/)

4.5.6 CNKI知识服务平台

信息检索与利用(第三版)第六章 搜索引擎相关推荐

  1. 《Effective C++》第三版 第六章 继承与面向对象设计 32~35条例

    文章目录 条款32:确定你的 `public` 继承塑膜出 is-a 关系 故事引入规则 案例说明 小结上代码 公有继承用法 企鹅不会飞 企鹅会飞,但那是错的! 总结 请记住 条款33:避免遮掩继承而 ...

  2. 编译原理陈火旺第三版第六章课后题答案

    下面的答案仅供参考! 1.按照表6.1所示的属性文法,构造表达式(4*7+1) *2的附注语法树. 答: 首先考虑最底最左边的内部结点,它对应于产生式F→digit,相应的语义规则为F. val: = ...

  3. 算法导论第三版第十一章11.1-4

    算法导论第三版第十一章11.1-4 我们希望在一个非常大的数组上,通过利用直接寻址的方式来实现一个字典.开始时,该数组中可能包含一些无用信息,但要堆整个数组进行初始化时不太实际的,因为该数组的规模太大 ...

  4. 计算机应用教程第9,计算机应用教程(第8版)第六章

    <计算机应用教程(第8版)第六章>由会员分享,可在线阅读,更多相关<计算机应用教程(第8版)第六章(19页珍藏版)>请在人人文库网上搜索. 1.PAN XIAONAN 教程主编 ...

  5. 数据载入、存储及文件格式——《利用python数据分析》第六章学习

    数据载入.存储及文件格式--<利用python数据分析>第六章学习 前言 这次带来第六章的学习笔记,希望这次效率高点,快点写完. 代码环境这次小升级,Pycharm 2021.3 + An ...

  6. 计算机系统总线功能组,计算机组到成原理(华科版)第六章 系统总线.ppt

    计算机组到成原理(华科版)第六章 系统总线 两个不同频率的模拟信号,分别由电子开关控制,在运算放大器的输入端相加,而电子开关由要传输的数字信号(即数据)控制.当信号为"1"时,控制 ...

  7. 04737 c++ 自学考试2019版 第六章课后练习 程序设计题 1

    /* * 04737 c++ 自学考试2019版 第六章课后练习 * 程序设计题 1 * 需求:将第五章习题中设计的交通工具...... */#include<iostream> #inc ...

  8. 数据结构C语言版第二版第六章原创总结

    数据结构C语言版第二版第六章原创总结 图章节原创总结

  9. C++ Primer Plus第六版第六章编程练习 第4题, 加入Benevolent Order of Programmer后,在BOP大会上

    /*************************************************************************************************** ...

最新文章

  1. 14_传智播客iOS视频教程_instancetype
  2. python PyQt5 QMainWindow类(Qt主窗口框架,主窗口提供了用于构建应用程序用户界面的框架)
  3. 关于python编码的问题
  4. 视频监控线缆选型须知 转
  5. 第 45 届国际大学生程序设计竞赛(ICPC)亚洲区域赛(昆明) Stone Games
  6. mysql对表中添加属性_菜鸟笔记—数据分析师MySQL篇(一)
  7. 量词逻辑量词里面的v表示?_代理知识表示中的量词简介(基于人工智能)
  8. linux mp4box安装,mp4box安装备忘
  9. NLP判断语言情绪_网易严选nlp预训练语言模型的应用
  10. 论文常用实验数据收集整理
  11. matlab 傅里叶变换时间窗 频率窗,短时傅里叶变换窗函数窗口宽度的选择
  12. 那一年马云34岁,李彦宏30岁,马化腾27岁
  13. 驾驶本到期换新,要想照片拍的好看,办理不耽误时间请按照以下步骤进行
  14. C++核心准则边译边学-不必惊慌!
  15. 【大学物理·早期量子论和量子力学基础】量子力学中的氢原子问题
  16. vue-cli Webpack之Loader原理及自定义Loader
  17. LuatOS快速上手——GPS定位
  18. html图片定位坐标原点,利用CSS定位背景图片的常用方法总结
  19. 苹果手机变成耳机模式怎么调回来_百元真无线蓝牙耳机,竟比肩airpods?
  20. win10系统如何添加Editplus到鼠标右键

热门文章

  1. 30个高质量的数据集网站,你必须要试试!
  2. 84岁老爷爷技术博客
  3. 无法访问计算机无效的语法,您输入的表达式包含无效语法(The expression you entered contains invalid syntax)...
  4. 时光不负有心人,自己努力,自己肯定
  5. php星星符号怎么打,如何用html5写特殊符号五角星
  6. 自制微信机器人:群发消息、自动接收好友
  7. wordpress4.4禁用自动保存草稿和去除文章修订的方法
  8. C语言使用CUDA中cufft函数做GPU加速FFT运算,与调用fftw函数的FFT做运算速度对比
  9. 1.Kafka下载安装
  10. 关于QQ群头像以及微信讨论组头像的工具类