4.2 数据库的设计
本课题包含一张用于存放抓取回来的网页信息如表1。

4.3 模块设计
该模型按照功能划分为三个部分,一是爬虫抓取网页部分,二是从数据库建立索引部分,三是从前台页面查询部分。系统的功能流程(如图5.1和5.2)。


该系统用3个模块来实现搜索引擎的主要功能。流程如上图所示。

从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。这条件可以是限定的某个域名空间、或者是限定的网页抓取级数。当在获取URL时存在这样的问题就是在实际应用中主要以绝对地址和相对地址来表现。绝对地址是指一个准确的、无歧义的Internet资源的位置,包含域名(主机名)、路径名和文件名;相对地址是绝对地址的一部分。然后把抓取到的网页信息包括网页内容、标题、链接抓取时间等信息经过‘减肥’后保存到网页存储数据库表里。然后通过正则表达式,去掉多余的HTML标签。因为抓取的网页含有HTML标签、Javascript等,对搜索多余的信息,如果抓取到的网页不经过处理就会使搜索变得不够精确。

让爬虫程序能继续运行下去,就得抓取这个网页上的其它URL,所以要用正则将这个网页上的所有URL都取出来放到一个队列里。用同样的方法继续抓取网页,这里将运用到多线程技术。

为了对文档进行索引,Lucene提供了五个基础的类,他们分别是Document,Field,IndexWriter,Analyzer,Directory Document是用来描述文档的,这里的文档可以指一个HTML页面,一封电子邮件,或者是一个文本文件。一个Document对象由多个Field对象组成的。可以把一个Document对象想象成数据库中的一个记录,而每个Field对象就是记录的一个字段。在一个文档被索引之前,首先需要对文档内容进行分词处理,这部分工作就是由Analyzer来做的。Analyzer类是一个抽象类,它有多个实现。针对不同的语言和应用需要选择适合的Analyzer。Analyzer把分词后的内容交给IndexWriter来建立索引。

论文目录:

【免费毕设】基于Ajax+Lucene构建搜索引擎的设计和实现(源代码+lunwen)相关推荐

  1. datetime 索引_【免费毕设】ASP.NET基于Ajax+Lucene构建搜索引擎的设计和实现(源代码+论文)...

    点击上方"蓝字"关注我们目录 系统设计 4.1 搜索引擎模型 模型包括爬虫.索引生成.查询以及系统配置部分.爬虫包括:网页抓取模块.网页减肥模块.爬虫维持模块.索引生成包括:基于文 ...

  2. 【免费毕设】JAVA监听系统的设计与开发(源代码+论文)

    文章目录 目录 一.系统设计 二.系统实现 源文件 目录 一.系统设计 4.1 设计框架图 经过对Winpcap和Jpcap的了解,知道了如何截获数据包并进行处理,现在就要编写代码,将这些步骤嵌入到一 ...

  3. 【免费毕设】PHP校园二手信息网站的设计与开发(源代码+论文)

    4.2 创建界面 1.首页: 网站首页是用户进入系统的第一个界面,因此,简洁.友好.清晰醒目是设计时要考虑的风格.样式如图所示: 2.管理员管理主界面: 管理员输入正确的用户名和口令后,就可进入管理主 ...

  4. java ee论坛系统代码_Forum 基于JavaEE的论坛系统的设计与实现 源代码 Develop 238万源代码下载- www.pudn.com...

    文件名称: Forum下载 收藏√  [ 5  4  3  2  1 ] 开发工具: Java 文件大小: 1711 KB 上传时间: 2013-10-05 下载次数: 1 详细说明:基于JavaEE ...

  5. 基于Lucene的搜索引擎的设计与实现

    我们处在一个大数据的时代,伴随着网络信息资源的庞大,人们越来越多地注重怎样才能快速有效地从海量的网络信息中,检索出自己需要的.潜在的.有价值的信息,从而可以有效地在日常工作和生活中发挥作用.因为搜索引 ...

  6. 基于OAI-PMH的元数据搜索引擎的设计与实现

    在设计和实现基于OAI-PMH的元数据搜索引擎过程中,需要解决很多方面的问题. 对于中小型搜索引擎,最好使用开放源代码软件来实现. 一.实现基于OAI-PMH的元数据搜索引擎,我采用了如下开放源代码软 ...

  7. 【转】基于OAI-PMH的元数据搜索引擎的设计与实现

    在设计和实现基于OAI-PMH的元数据搜索引擎过程中,需要解决很多方面的问题. 对于中小型搜索引擎,最好使用开放源代码软件来实现. 一.实现基于OAI-PMH的元数据搜索引擎,我采用了如下开放源代码软 ...

  8. 基于Heritrix+Lucene的搜索引擎构建(6)——搜索UI与结果页面

    设计一用户界面,例如基于B/S结构的: 把Lucene等程序包和开发的检索程序(类)导入到检索页面中,编写结果页面代码,例如searchresult.jsp: <%@ page language ...

  9. ajax+lucene pdf,基于Ajax/Lucene的站内搜索技术研究

    摘要: 站内搜索引擎是找出网站重要信息的必要工具,高效的站内搜索将有助于提升网站的价值,发挥网站应有的作用.虽然现在一些网络巨头已开始研究并应用这类工具,但整个互联网行业中,受制于技术的门槛,真正的站 ...

最新文章

  1. 获取cookie_抢券第一课:三种方法获取Cookie
  2. mac电脑抹掉数据要多久_macbook怎么抹掉所有的数据?
  3. docker远程访问TLS证书认证shell
  4. 大数的相加 乘 余 幂
  5. 机器人学一些概念2——四元数,D-H 参数
  6. linux磁盘使用情况脚本,技术|用 Linux Shell 脚本来监控磁盘使用情况并发送邮件...
  7. python 绘图的背景颜色不要_matplotlib自定义添加 “哆啦A梦”背景图,这个操作真牛逼!...
  8. 【Python笔记】AttributeError: module 'urllib3' has no attribute 'PoolManager'
  9. 关于编码问题,报错:'gbk' codec can't encode character '\u3164' in position 0: illegal multibyte sequence...
  10. WPF中TextBlock文本换行与行间距
  11. WebService 入门教程(Java)
  12. 关于苹果绕ID的一些注意事项,A6-A7 Sliver 6.2 小白少走弯路。
  13. IOS 关于扬声器和听话筒的设置 ----自己试验过的,可以达到扩音器和听筒播放的效果...
  14. 大数据定价方法的国内外研究综述及对比分析
  15. 13. Zigbee应用程序框架开发指南 - 多网络支持
  16. VMware中建立共享文件夹 win7
  17. 来吧 带你玩转 Excel VBA
  18. 沉痛悼念互联网[云原生领域]技术大牛----左耳朵耗子(陈皓老师)
  19. 一个简单的税利计算器(网页版)
  20. 西门子1214 PID/通信模板 西门子PLC 1214和多台G120西门子变频器Modbud RTU通讯

热门文章

  1. 看小白如何解决ajax跨域问题
  2. PHP 实现Session入库/存入redis
  3. easyui datagrid 让某行复选框置灰不能选
  4. 练习(黄冈中学布局)
  5. Marquee无间隙滚动(二)
  6. 设计模式(5)—— 工厂方法模式(Factory Method,创建型)
  7. 主要排序算法(Python实现)
  8. 用python做一个搜索引擎(Pylucene)
  9. 【Coding】C++诡异问题之一
  10. apt-get 操作过程中提示无法解析域名“cn.archive.ubuntu.com” 的解决