垂直搜索引擎核心技术研究及展望论文

垂直搜索引擎与计算机领域多个方面的发展与应用息息相关,其关键技术更是促进计算机领域进一步发展的重要突破口。所以,对于垂直搜索引擎关键技术的研究具有十分重要的意义。我国计算机领域虽然对垂直搜索引擎关键技术方面进行了一定的研究,并且其研究应用在实际的计算机应用中也取得了十分有效的成绩。然而,随着科学技术的发展,对计算机技术要求不断提高的同时,对于垂直搜索引擎的关键技术也有了新的要求。因此,在今后的发展中,相关领域的专业人士要加强对垂直搜索引擎关键技术的重视和研究,进而在更大程度上提高垂直搜索引擎关键技术的应用水平。

一、垂直搜索引擎概述

1. 垂直搜索引擎的概念

所谓的垂直搜索引擎实际上就是搜索引擎的一个分支、是搜索引擎的细化。也就是说,垂直搜索引擎所搜索的信息更加具有行业性,更加具有专业化。用计算机领域的专业术语来讲就是“对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户”.因而,垂直搜索引擎更加受到某些专业性、行业性比较强的用户的欢迎。

2. 通用搜索引擎与垂直搜索引擎的不同

垂直搜索引擎与通用搜索引擎最大的区别和不同就是对于搜索信息范围的不同。我们从字面上来理解通用二字就可以知道,通用搜索引擎适用于任何一类信息的搜索,只不过其缺点就是搜索的范围比较大,需要操作者在搜索之后对信息进行进一步的筛选。而垂直搜索引擎则能很好的避免这一问题,其搜索都是针对于某一行业的专业搜索,因而能够在最快的时间内为操作者提供最有效的信息。从当前社会的发展来看,人们对计算机要求的不断提升,相信这种垂直搜索引擎将会受到越来越多人的喜爱。

二、垂直搜索引擎的关键技术

从上述分析中可知,垂直搜索引擎是计算机领域中的一个发展重点,并且垂直搜索引擎相比于通用搜索引擎而言,更加适合于未来人们对计算机应用的需要。所以,对垂直搜索引擎关键技术的研究势必要提上日程。笔者在此主要从以下几个方面对垂直搜索引擎的关键技术进行了研究,希望以下这些研究能够为垂直搜索引擎关键技术的研究发展提供一些参考。

1. 网络爬虫技术

网络爬虫技术是垂直搜索引擎中一项十分重要的关键技术,该技术是一种能够自动抓取网页程序的技术,因而是搜索引擎中的重要组成成员。而也是这一重要地位决定了网络爬虫技术工作流程的复杂性。该技术在具体的工作过程中是需要对网页进行大量的分析后,来丢掉每一个与搜索信息无关的连接,与从同时,将分析后留下的连接在放入等待抓取的地方,进而进行下一步的抓取与筛选。

广度优先和深度优先是网络爬虫技术的两个策略,两种策略以其各自的优势为该技术的应用提供便捷。此外,在使用网络爬虫技术的过程中,还需要意识到一点,即每一个被该技术抓取的网页都将会被计算机的系统储存,并且这些网页会通过多个方面的分析和过滤后建成相应的索引。

2. 网页信息抽取技术

所谓的网页信息抽取技术指的就是用网页作为信息源头,在网页中搜索计算机使用者需要的或者是感兴趣的信息。网页信息抽取技术的优势是其所搜索出的信息经过了多个方面的处理,将原有网页上的信息处理的更具有结构化、清晰化,切格式也比较统一。现有的网页信息抽取技术主要有三种抽取方法:基于自然语言处理的方式、基于包装器归纳的方式、基于 HTML 结构的信息抽取。三种方法都为垂直搜索引擎做出了突出的贡献。并且随着未来电子商务领域的不断发展,这种网页信息抽取的搜索引擎方法将发挥更大的应用价值。

3. 中文分词技术

除了以上两种垂直搜索引擎关键技术外,中文分词技术也是最为常用的一种垂直搜索引擎技术。该种技术对于文本的处理速度是十分快速的,而该种技术也是由于其快速性被广泛的应用。中文分词技术的方法有很多,如基于字符串的匹配、基于统计的方法等,都是垂直搜索殷勤中的重要方法。然而,在实际中文分词技术的应用中,由于网络语言发展的.比较快,各种新颖的网络新词层出不穷,而这一点也成为了中文分词技术应用的重要挑战。

三、垂直搜索引擎的发展空间

从上述垂直搜索引擎关键技术的研究中我们可以发现,当前的关键技术的应用已经取得了很大的成就,并且随着关键技术的进一步研究,将会有越来越多的行业意识到垂直搜索引擎价值性。同时,随着当前市场发展的多元化、专业化,垂直搜索引擎这种适合专业性、行业性领域发展的技术势必会在未来的搜索行业中占有举足轻重的地位,并且将计算机领域的发展推向另一个高潮。

以上仅仅只是笔者对于垂直搜索引擎关键技术的几个主要方面的分析,然而,事实上,其关键技术涉及的方面比较多,再加之笔者对于垂直搜索引擎方面的研究能力有限,因而仅仅凭借以上对于垂直搜索引擎关键技术的研究来促进该方面技术的发展和应用是远远不够的。因此,对于垂直搜索引擎关键技术的研究还有待进行进一步的探索。

四、结语

综上所述,对于垂直搜索引擎关键技术的研究不仅仅有利于提高该技术在计算机领域的进一步应用,同时更有利于促进计算机领域的全面发展。然而,垂直搜索引擎关键技术的研究涉及的内容比较多,并且每一项关键技术都十分复杂,再加之垂直搜索引擎相关领域工作人士对于其关键技术的研究还没有达到一定的深度和广度,因而不利于实际关键技术的应用和发展。所以,在今后垂直搜索引擎领域的发展中,要加强对其关键技术的重视和研究,并且要从其关键技术的多个角度、多个方面进行分析,从而研究出更好、更有利于促进垂直搜索引擎关键技术应用与发展的方法与措施。

参考文献:

[1] 王晓伟 . 垂直搜索引擎若干关键技术的研究 [J]. 浙江大学学报 ,2007,(5)。

[2] 李副铭 . 垂直搜索引擎的研究与设计 [D]. 电子科技大学学报 ,2009,(9)。

[3] 刘世涛 . 简析搜索引擎中网络爬虫的搜索策略 [J]. 阜阳师范学院学报 ,2006,(9)。

【垂直搜索引擎核心技术研究及展望论文】相关文章:

计算机技术论文搜索引擎,垂直搜索引擎核心技术研究及展望论文相关推荐

  1. 计算机组网论文总结与展望,浅析未来移动通信研究开发展望论文

    浅析未来移动通信研究开发展望论文 摘要:随着科学技术的不断发展,使得我国的信息技术以及移动通信技术也得到了迅速的发展,而在市场需求的同时,对于未来移动通信技术的趋势在于网络业务的数据化.移动互联性与分 ...

  2. 基于Lucene垂直搜索引擎的研究与开发实践报告

    目录 一.垂直搜索引擎概述 二.项目概述 三.关键技术 3.1 Lucene 3.2 全文检索 四.系统设计 4.1 实现全文检索 4.1.1.Lucene 实现全文检索的流程 4.2 可视化界面设计 ...

  3. 搜索引擎(综合)向左 垂直搜索引擎向右

    2009年7月16日,中国互联网络信息中心(CNNIC)发布<第24次中国互联网络发展状况统计报告>显示,截至2009年6月30日,我国网民规模.宽带网民数.国家顶级域名注册量(1296万 ...

  4. 垂直搜索引擎 nutch

    垂直搜索引擎能否赢得市场? 垂直搜索引擎为用户提供的并不是上百甚至上千万相关网页,而是范围极为缩小.极具针对性的具体信息.因此,特定行业的用户更加青睐垂直搜索引擎,是垂直搜索引擎的长期.稳定的群体. ...

  5. 基于Python爬虫的垂直搜索引擎设计与实现

    作者主页:编程千纸鹤 作者简介:Java.前端.Pythone开发多年,做过高程,项目经理,架构师 主要内容:Java项目开发.毕业设计开发.面试技术整理.最新技术分享 收藏点赞不迷路  关注作者有好 ...

  6. 影响中国发展的七大垂直搜索引擎

    百度进军日本前途未卜,Google开进中国遭遇抄袭门,YAHOO中国再演变脸秀.2007年才刚刚过了三分之一,中国互联网搜索领域已是风声水起.殊不知,在这些互联网大鳄的身边,还潜伏着重重杀机,各类的垂 ...

  7. 什么是垂直搜索引擎(之二)

    什么是垂直搜索引擎(之二) 垂直搜索引擎的三个特点: 1.垂直搜索引擎抓取的数据来源于垂直搜索引擎关注的行业站点:     比如:找工作的搜索引擎 www.deepdo.com 的数据来源于:www. ...

  8. 垂直搜索引擎一》前言与需求分析

    1前言 1.1 课题研究的背景 互联网特别是移动互联网的高速发展,网上信息急剧增长,传统的搜索引擎十分适合大众搜索,但是面向特定领域的搜索时,就会有心无力.并且传统搜索引擎采集网页是饥饿扫描式爬虫,难 ...

  9. 简易垂直搜索引擎的核心算法总结

    1.   倒排索引 倒排索引源于实际应用中需要根据属性值(字段)来查找记录(所在的文件位置).这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址. 目前主流的索引技术有三种:倒排索引.后 ...

最新文章

  1. 为什么使用LM386可以直接收听调频电台节目?
  2. 【约束布局】ConstraintLayout 屏障 Barrier 约束 ( 简介 | 屏障适用场景 | 位置说明 | 相关属性 | 可视化操作 | 代码示例 | 总结 )
  3. PHP函数整理(一)
  4. java 包装类方法总结_【源码】java包装类总结
  5. qml如何发布程序_首创PC端小程序直播发布会,360如何与手机厂商一起共振?
  6. CNN经典模型:GoogLeNet(从Inception v1到v4的演进)
  7. DOS打印目录树到文件
  8. linux shell 之 grep
  9. Windows中MySQL主从数据库搭建(二)
  10. jar包运行utf-8格式
  11. FileZilla Server连接服务器失败
  12. Instrument使用总结
  13. 2019暑假牛客训练赛(补题及笔记)
  14. Socket 多人聊天室的实现 (含前后端源码讲解)(一)
  15. EBS创建会计科目请求报错问题查询
  16. java线程池newfi_java线程池
  17. 安卓逆向——修改APP的名称,图标和包名多开分身
  18. Python数据分析高薪实战第四天 python数据采集下载和提取保存
  19. Android之ListView展示多类型的条目
  20. 新课程背景下的教师专业发展问题及其对策

热门文章

  1. android vivo oppo 真机调试 apk、安装失败,系统老是报“解析包时出现问题”
  2. qt中的toUtf8, toLatin1, Local8bit编码问题
  3. 计算机科学技术学院迎新晚会主题,我校计算机科学与技术学院举行迎新晚会
  4. 小米手机开机自启动软件及定时开关机
  5. [心得]写文章不是求评论,而是自我总结提高
  6. Python解答多元线性方程组
  7. 组装台式计算机需要哪些硬件,电脑硬件有哪些?组装一台电脑需要哪些配件详解...
  8. mac 10.13.6 升级至10.14.6再升级至12.4
  9. 苹果cms怎么添加2019和2020年份筛选
  10. gird布局解决 最后一行数量不对布局问题