在搜索引擎成为web2.0发展的一道风景线的今天,为信息查找提供更有时效性、针对性、准确性的垂直搜索引擎越来越受到网络用户的青睐。本论文以垂直搜索为主题,介绍搜索引擎的发展及其现状,对比通用搜索引擎和垂直搜索引擎的优缺点,论述了垂直搜索引擎技术及其发展潜力。

Internet的发展,给人类社会带来了翻天覆地的变化,将人类文明推向一个新的高度的同时,也给人类提供了无限的商机。它的到来,使信息技术成为当今世界各国发展的主题。Internet的普及,网民的数量的猛增,web资源的指数般增加,激励着人们探索新的突破。以服务大众出名的通用搜索引擎为我们指引了方向。它们为无数的网民提供了从无底的web中寻找资源,然而,随着Internet的发展,通用搜索引擎有时很难在庞大的信息库中搜索到准确的信息。它的缺陷,给垂直搜索引擎提供发展的空间,以及无限的潜力。垂直搜索的出现,便是对通用搜索引擎的补充,未来的时间里,它将与通用搜索引擎相辅相成,服务人类的同时,共享新的金矿。

一、什么是搜索引擎

所谓搜索引擎,是指在Internet下,网站根据用户输入的查询条件(关键字),自动从web资源里提取出与用户输入条件相关的信息的一类网站。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而达到信息导航的目的。

随着Google(谷歌)、baidu(百度)等搜索引擎在Internet上的经营的成功,越来越多的IT企业开始进军搜索市场,经过IT精英们的不断开拓新领域,创造新价值。搜索引擎从广义上可以将其划分为通用搜索引擎和垂直搜索引擎。

二、通用搜索引擎与垂直搜索引擎的对比

随着网络的发展,它一方面让我们更容易的获取到信息,另一方面,信息的爆炸发展,也彻头彻尾地将我们陷入了无边无际的信息海洋之中。在如此海量的信息页面之前,我们想要找到自己需要的信息简直就是“大海捞针”。搜索引擎的横空出世让我们有了探索信息海洋的指南针。

1、通用搜索引擎的最大优点是,实现全文搜索,检索到的信息量大,信息覆盖范围广,同时引擎更新信息速度快。根据辩证的思想,最大优点下,也隐藏着最大的缺点,目                前Internet上搜索引擎可索引到的网页数量已超过110亿页,由于通用搜索引擎搜索范围的广,导致搜索的匹配度低,命中率低,层次结构不清洗,而且重复连接较多,查询结果信息量大,用户很难在海量的链接结果中找到想要的信息。

2、垂直搜索引擎是针对某一个特定行业的专业搜索引擎, 是通用搜索引擎的细分和延伸, 是对网页库中的某类专门的信息进行一次整合, 定向分字段抽取出需要的数据进行处理后          再以某种形式返回给用户。垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。

三、垂直搜索引擎的原理及组成

搜索引擎的主要由搜索器、索引器、检索器组成。基本原理和主要功能组件方面,垂直搜索引擎与通用搜索引擎基本相同。两者主要的区别在于Spider爬行范围和网页信息处理深度两方面。通用搜索引擎Spider爬行的范围是面向几乎所有网页,而垂直搜索只爬行跟主题相关的网页。因此,垂直搜索引擎能够比通用搜索引擎更快速的找到相关主题的信息。

搜索器(Spider):也称网络蜘蛛、网络机器人等,是搜索引擎的灵魂。它根据特定算法负责抓取网页,从抓取到的网页里采集信息,对信息进行分词,分词根据词语的特殊属性选择分词算法,并将信息与其关联的URL保存进服务器数据库。搜索器必须保证及时的发现新网页,定时的重新采集已有网页信息更新保存数据库数据。

索引器(Indexer):根据搜索器,即网络蜘蛛采集后经过分词等处理后产生的关键字(keyword),建立从关键字到网页URL(统一资源定位器)的关系索引倒排文档,即建立索引数据库。检索器的功能是根据用户输入的查询词,在索引数据库中进行查询词与索引数据库的匹配算法,然后将查询结果按相关程度排序并输出到浏览器上。

除了考虑核心的技术外,虚拟主机采用高效的算法外,必须在用户体验上下功夫如结构化的显示搜索到的结果。比如,Google所使用的Ajax(异步JavaScript)技术,用户输入查询时能够自动提示,还有Google查询后显示的数据,界面上字体等要比Baidu细致一个档次。这些细节的原因,某种程度关系到搜索引擎在市场的占有额。

四、垂直搜索引擎的相关技术

1、页面解析与页面显示排序

网页地址都是用URL(UniformResource Locator统一资源定位器)来表示,获取网页信息,必须找到URL,读取该URL页面的HTML、特定标签,高级的搜索引擎还能对JavaScript语句进行解析。这是因为许多网站直接用JavaScript构建出来,而且随着Ajax技术的流行,很多信息包含在JavaScript标签里,为了提高采集信息的准确率,提高搜索引擎的竞争力,搜索引擎必须提供JavaScript解析器。

页面排序是针对根据用户关键字,查询到的网页列表,采用何种策略将网页列表显示在用户面前,使用户最想知道的结果显示在最前面页数发生的概率最大。主要的算法有:PageRank算法、HITS算法。在排序上,有些搜索引擎(如百度),则加入收费这一方式,使排序成为搜索引擎的一大盈利模式。

2、数据存储及分布式技术

尽管垂直搜索引擎保存的网页数量相对通用垂直搜索引擎小很多,但是,作为一个优秀的商业垂直搜索引擎,必须在提高性能的同时减低成本,提升竞争力。可以采用数据压缩的技术对数据进行压缩存储,采用数据库技术,如索引等提高数据读取速度,可以采用分布式技术,通过多台服务器相互合作,以提高数据采集和更新速度。

3、网络蜘蛛的爬行策略

网络蜘蛛(Robot或Spider)的搜索策略是指当网络蜘蛛搜索到一个文档之后,下一步应该转移到哪一个文档的方法问题。目前比较常见的搜索策略有以下几种策略:(1)IP地址搜索策略。(2)深度优先搜索策略。(3)广度优先搜索策略。(4)深度-广度结合搜索策略。

4、中文分词技术

  在Web应用中,文本处理的速度往往是性能的关键,快速分词具有很大的现实意义。Web文本分词是Web信息处理的基础,如信息检索、摘要形成、网页过滤等都需要对Web文本进行分词处理。Web文本的正文主要是由英文和中文构成,由于英文的单词与单词之间有空格,所以不存在分词问题。而中文的每一句中词与词之间是没有空格的,因而必须采用某种技术将其分开。

  分词的方法很多,基本上分为两类:第一类是基于字符串的匹配:将汉字串与一个机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。主要有正向最大匹配法、逆向最大匹配法、最少切分等方法。第二类是基于统计的方法:从概率角度出发,单字出现在词汇中联合概率是比较大的,因此当相邻的字越常出现,则越有可能是一个词。基于上述引,对处理的材料进行分析,得到相应的单字出现的概率,然后对相邻的字出现概率进行统计,若远大于单字出现的概率之和,则可能成为一个词。实际应用中,统计分词方法都是与字典结合着来使用的,这样既发挥匹配分词的切分速度快、效率高的特点,对利用了无词典结合上下文识别生词,并能消除歧义等优点。

五、垂直搜索引擎的发展空间

“ 确解用户之意,切返用户之需 ” 、 “ 用户无法描述道他要找什么,除非让他看到想找的东西 ” ,这是消费者(网络使用者)对搜索引擎提出的更高要求。以尽可能多的收集到与专业相关的信息为主要目标的垂直搜索引擎,比通用垂直搜索引擎在 Internet 上更加贴切消费者的要求。专业化的集中特定领域的垂直搜索引擎有效地弥补了综合性搜索引擎对专门领域及特定主题信息覆盖率过低的问题。市场需求的多元化,决定着搜索引擎服务的多元化;通用搜索引擎开拓市场上的成功,为垂直搜索引擎的市场战略提供了宝贵的借鉴经验,垂直搜索引擎的特点,决定着它在 Internet 上占有一席之地,必将成为搜索行业的一大力量。

浅谈垂直搜索引擎技术相关推荐

  1. 浅谈计算机数据库技术的应用,浅谈计算机数据库技术的应用意义.doc

    浅谈计算机数据库技术的应用意义.doc 浅谈计算机数据库技术的应用意义 [摘 要]随着计算机技术与网络通信技术的发展,数据库技术已成为信息社会中对大量数据进行组织与管理的重要技术手段及软件技术,是网络 ...

  2. 浅谈Android保护技术__代码混淆

    浅谈Android保护技术__代码混淆 浅谈Android保护技术__代码混淆 代码混淆 代码混淆(Obfuscated code)亦称花指令,是将计算机程序的代码,转换成一种功能上等价,但是难于阅读 ...

  3. 浅谈第四层交换机技术及应用

    原文地址:浅谈第四层交换机技术及应用 作者:ylky_2000 一. 什么是第四层交换机 要想认识第四层交换机,先得对传统的第二层交换机和现在广泛应用的第三层交换机的基本工作原理和性能,有一些简单了解 ...

  4. 浅谈区块链技术应用场景

    浅谈区块链技术应用场景 摘要 一,区块链技术简介 二,区块链技术基础 1. 点对点之间传输信息的网络 2. 非对称加密技术 3. 共识机制 三,基于软件层面区块链技术应用场景 应用层 区块链技术与身份 ...

  5. 教师运用计算机技术的难点,浅谈运用电脑技术进行备课的几点优势

    浅谈运用电脑技术进行备课的几点优势 备课是教师在教学工作中必不可少的环节.教师在备课过程中,要通过钻研教材和分析学生的状况,完成课堂教学的整体设计任务并且为教学设计的实施做好充分的准备工作.教师备课质 ...

  6. 我国对计算机科学与技术专业人才社会需求,浅谈计算机科学与技术专业应用技术型人才的培养研究论文...

    浅谈计算机科学与技术专业应用技术型人才的培养研究论文 培养应用型专业技术人才是我国高等教育的重要任务,目前我国社会和经济的发展对于,应用技术型人才的需求在不断提升.因此高校在进行计算机专业应用技术人才 ...

  7. 浅谈GPU虚拟化技术(四)- GPU分片虚拟化

    让各位久等了,阿里小二这就开始上新菜:"GPU分片虚拟化". 对于"分片"的理解,相信大家已经不陌生了.此处的分片从两个维度上来定义:其一,是对GPU在时间片段 ...

  8. 如何用python抓取文献_浅谈Python爬虫技术的网页数据抓取与分析

    浅谈 Python 爬虫技术的网页数据抓取与分析 吴永聪 [期刊名称] <计算机时代> [年 ( 卷 ), 期] 2019(000)008 [摘要] 近年来 , 随着互联网的发展 , 如何 ...

  9. 动物克隆技术应用价值_浅谈生物克隆技术及其未来应用问题与前景

    浅谈生物克隆技术及其未来应用问题与前景 肖婷 2012333500202 浙江理工大学经管学院工商管理专业 指导老师:解纯刚 浙江理工大学生科学院 [摘 要] : 随着生命科学时代的到来,基因研究已经 ...

最新文章

  1. 0x02.基本算法 — 递推与递归
  2. JSBing-js自动绑定C++
  3. pythonmsgbox怎么使用_如何使用tkinter的messagebox
  4. Qt Creator应用3D效果
  5. html 使用button调用函数
  6. 黑苹果sd卡认不出来_天生一对:新入苹果M1笔记本,DOCKCASE拓展坞弥补缺憾
  7. php 输出可以设置格式文件,php格式输出文件var_export函数实例
  8. js exec方法详解
  9. 常用docker命令
  10. opnecv 读取视频与图像还是有区别的
  11. 满二叉树与完全二叉树入门
  12. PLCrashReporter的使用
  13. 编译OpenJDK12:LNK2019 无法解析的外部符号sprintf
  14. 算法题解:旅行商(TSP)问题JAVA算法求解
  15. ThinkPHP6校园疫情防控管理系统
  16. 职高计算机应用基础教学目标,职高计算机应用基础教法初探.doc
  17. openbci/bciduino脑电放大器lsl数据解释
  18. 浏览器输入url后经历的过程(详细)
  19. 不务正业——游记篇 no.1 (重庆)
  20. java:均值哈希实现图像内容相似度比较

热门文章

  1. SMTP 协议,验证 Email 地址
  2. bert源码之中_run_strip_accents(text)函数解读
  3. 图标搜索网站 http://easyicon.net/
  4. 在win7下用vs2008 编译程序时出现“mt.exe停止工作”问题的解决办法
  5. 浅谈网页设计中的黄金分割
  6. ENVI感兴趣区(ROI)文件由XML格式转换为ROI格式的方法
  7. 软件技术常用软件和网站资源
  8. 2022年重氮化工艺考题及在线模拟考试
  9. Linux——基础+常用命令
  10. VisSim.Comm.v4.5.08 (卫星、终端等的通信分析软件)