摘要:

站内搜索引擎是找出网站重要信息的必要工具,高效的站内搜索将有助于提升网站的价值,发挥网站应有的作用.虽然现在一些网络巨头已开始研究并应用这类工具,但整个互联网行业中,受制于技术的门槛,真正的站内搜索技术还没有被广泛的普及.因此,研究并开发站内搜索引擎具有重要的现实意义.

本文主要研究与站内搜索相关的技术和方法,主要包括全文检索,Lucene,Ajax,网络蜘蛛,中文分词等内容.在学习研究的基础上,设计并实现了一个站内搜索引擎;测试结果表明,该引擎具有实用价值.

本文第一部分首先阐述了搜索引擎的相关概念,搜索引擎按照技术原理可以分为三类:全文检索引擎,目录搜索引擎和元搜索引擎,本文主要是研究全文检索引擎.国内许多全文检索系统,其实现都是基于关系数据库开发的,或者是使用通用数据库系统提供的全文检索功能开发的,存在查询速度慢和无法处理非结构化数据等很多弊端.所以本文的研究采用了全文索引文件库.

接着,分析了全文检索工具包Lucene的系统结构,数据流,索引格式等等.然后,研究了Ajax框架,Ajax技术的出现正在改变着B/S结构的应用模式,它正在将我们带入到下一代的网络应用之中.系统的前端搜索界面采用了Ajax技术,带来了更好的用户体验.

然后,是本文的主要工作:分析和设计站内搜索引擎系统.对总体架构的搭建,具体分模块的设计进行了详细的分析.接着,对构建站内搜索引擎中的几个关键问题进行了研究与改进.包括:设计出一种适合站内搜索的网络蜘蛛;选用合适的HTML解析器解析出网页中的文本信息;对Lucene自带的中文分词算法进行了改进;对Lucene排序算法做了改进;为了更好的体现出网页各部分内容的比重关系,在系统中引入词频位置加权算法的思想.

最后,我们用Eclipse开发平台,结合几种开源API,实现了Web站内搜索引擎系统.为了使系统界面更加友好,访问速度更快,系统界面设计采用了新技术--Ajax,最后对系统进行了测试.测试结果表明,该站内搜索引擎系统完全能满足对中小型网站的站内搜索要求.

展开

ajax+lucene pdf,基于Ajax/Lucene的站内搜索技术研究相关推荐

  1. -gMIS持续优化更新, +InSiteSearch站内搜索

    2019独角兽企业重金招聘Python工程师标准>>> -gMIS 部署和应用的场景越来越多,最近在考虑为所有gMIS承载管理的数据库系统增加一个站内搜索功能, +InSiteSea ...

  2. Lucene.net站内搜索—5、搜索引擎第一版实现

    目录 Lucene.net站内搜索-1.SEO优化 Lucene.net站内搜索-2.Lucene.Net简介和分词 Lucene.net站内搜索-3.最简单搜索引擎代码 Lucene.net站内搜索 ...

  3. 站内搜索——Lucene +盘古分词

    为了方便的学习站内搜索,下面我来演示一个MVC项目. 1.首先在项目中[添加引入]三个程序集和[Dict]文件夹,并新建一个[分词内容存放目录] Lucene.Net.dll.PanGu.dll.Pa ...

  4. 超市管理系统的html页面,基于WEB的超市管理系统_站内搜索_Web开发网

    Web开发网 > 站内搜索 > 基于WEB的超市管理系统 系统ctrl+alt+del调出系统任务管理器后,发现没有用户选项卡,如下图 这是因为电脑上Windows用户登录或注销的方式配置 ...

  5. 一步步开发自己的博客 .NET版(5、Lucenne.Net 和 必应站内搜索)

    前言 这次开发的博客主要功能或特点:     第一:可以兼容各终端,特别是手机端.     第二:到时会用到大量html5,炫啊.     第三:导入博客园的精华文章,并做分类.(不要封我)     ...

  6. 站内搜索--3--之Lucene.Net使用

    上一篇 站内搜索---2----之Log4Net使用 Lucene.Net是由Java版本的Lucene移植过来的,所有的类.方法都几乎和Lucene一模一样. Lucene.Net只是一个全文检索开 ...

  7. 用全文检索构建站内搜索和大数据搜索引擎

    全文检索首先对要搜索的文档进行分词,然后形成索引,通过查询索引来查询文档.全文检索是目前搜索引擎,大数据搜索的关键技术.全文检索系统可实现亚秒级的检索速度以及每秒上百次的并发检索支持. 需求: 实现淘 ...

  8. 使用Google Custom Search打造站内搜索

    链接: Google AJAX 搜索 API 参考: http://www.google.com/cse/docs/cref.html?hl=zh-CN http://www.google.com/c ...

  9. java实现站内搜索

    1.站内搜索 在以往的网站建设,企业系统的搭建过程中,因为信息比较简单,比较少,站内搜索可能不是必要的选项,而今,时代的发展, 信息量的增大,网站逻辑的复杂,企业自身对信息架构.管理.发布的需求,以及 ...

最新文章

  1. 代码重构之三种取代类型码(类、子类、状态对象或策略对象)的方式辨析
  2. Git 2.9增加了Merge、Rebase、Commit等新特性
  3. 计算机视觉:让冰冷的机器看懂这个多彩的世界
  4. True Zero Downtime HAProxy Reloads--转载
  5. php写的微信聊天界面,浅谈 聊天界面 核心架构设计
  6. 经典C语言程序100例之七
  7. svd降维 python案例_菜菜的机器学习sklearn实战-----sklearn中的降维算法PCA和SVD
  8. 关于$.getJson
  9. Flowable 数据库表结构 ACT_RU_EVENT_SUBSCR
  10. Android学习系列(15)--App列表之游标ListView(索引ListView)
  11. Less的一些基本知识
  12. 详细解读windows无法ping通虚拟机的原因
  13. iphone mac地址是否随机_iPad 的 Mac 地址是否会随机更换,如何关闭呢
  14. 校园一卡通管理信息系统的设计与实现(asp.net)
  15. golang base64解码编码实现
  16. matlab 打开立即窗口,《如何编程打开或关闭VBE界面中的立即窗口及其他窗口?》-- access911.net 文章...
  17. 典型相关性分析(清风建模学习笔记)
  18. 美国人口的模型预测——非线性最小二乘法
  19. 嘟嘟噜~~~第一次写博,纪念一下
  20. python中正实数怎么表示_是的”数学地板(x) “和”int(x)“在Python中对正实数产生不同的结果?...

热门文章

  1. 25岁后,拉开你和同龄人差距的,不是出身,不是努力,而是……
  2. GCB:生态中心邓晔组-增温改变了微生物相互作用关系
  3. 相关分析在微生物生态学中的应用与误用
  4. 255套绝美ppt模板!适用于总结汇报、形象宣传、授课培训、项目介绍、毕业答辩等...
  5. R语言ggplot2可视化分组的重叠图实战:grouped overlay plot
  6. seaborn使用jointplot函数为散点图添加边缘图、添加回归线、为边缘直方图添加密度曲线、自定义边缘直方图的色彩(Change Color of Marginal Histogram Plot
  7. R语言dplyr包获取dataframe分组聚合汇总统计值实战(group_by() and summarize() ):均值、中位数、分位数、IQR、MAD、count、unique
  8. plotly可视化绘制多子图(subplots)并自定义坐标轴
  9. R安德森-达令检验( Anderson-Darling Test)
  10. 创建c语言编译错误,创建C语言项目时,无法编译成*.exe文件,提示系统找不到指定的文件...