内容介绍

原文档由会员 刘丽 发布

基于java网络蜘蛛程序

1.2万字 42页

包括开题报告,任务书,答辩PPT和论文正文

摘 要

在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。网络蜘蛛程序是Web搜索引擎技术中关键的一部分。

本论文基于现有的知识理论实现了蜘蛛程序,从给定网址开始进行爬行搜索,利用数据库队列技术管理网页链接,将访问过的网页资源下载到本地硬盘保存。通过使用Lucene工具包对下载资源。利用java.url中的类实现Spider程序与外界通讯,以及处理网页中的URL连接,对蜘蛛程序的核心类(通讯核心、蜘蛛程序工作核心),资源索引的建立与搜索新型了详细的研究。

通过设计分析,完成了自己的蜘蛛爬行程序。程序按照初始设计功能完成,实现了对网络资源的收集和整理。功能通过了测试,程序可以正常稳定运行

最后论文对全文进行了总结,并对为了发展的方向进行了展望。

关键字:HTTP,线程,Spider,Lucene

Abstract

At the initial stage of internet development, there were few websites, so information searching is comparatively easy. However, with the explosion of internet, searching for information became very hard to common website users which calls for the appearance of professional searching websites. A crucial part of web searching engine technology is web spider program.

This paper realized the following procedures from give the website address to operate searching, make use of data base lining technology to manage webpage linkage to download visited sources to the local hard drives. Lucene tool bag is used to give content to the download sources. This paper is focused on the following technology: the core of spider program (communication core, spider program working core), the establishment of sources and search.

Though the design analysis, I have finished my own spider creeping program. The program is finished based on initial design, implement the collection and arranging of net sources. These functions passed the test, and is able to run normally.

Key words: HTTP, routine, spider, Lucene

目 录

1 绪 论1

1.1课题研究背景1

1.2国内外研究现状1

1.3 本论文的结构4

2 程序设计目标及策略5

2.1程序分析5

2.1.1 多线程搜索5

2.1.2 数据库队列管理5

2.1.3 检索引擎——Lucene6

2.2功能点技术分析6

2.2.1 Spider如何获取URL链接的获取6

2.2.2 程序结构的选择6

2.2.3利用递归构造Spider6

2.2.4利用非递归构造Spider7

2.2.5 Spider程序的队列7

2.2.6全文索引8

3 程序设计与实现、测试9

3.1 HTTP类及相关类的设计与实现9

3.2 蜘蛛程序工作核心类设计与实现13

3.2.1 蜘蛛程序中线程的设计13

3.2.2 多线程同步14

3.3 Spider类及其相关类的实现15

3.3.1 ISpiderReportable接口15

3.3.2 IWorkloadStorable接口15

3.3.3 SpiderSQLWorkload类16

3.3.4 SpiderWorker类16

3.3.5 SpiderDone类18

3.3.6 Spider类19

3.4程序测试20

3.4.1硬件环境20

3.4.2软件环境20

3.4.3测试用例20

3.4.4测试结论21

4 总结22

致 谢25

参考文献26

附录:代码27

参考文献

[1]佟晓筠等.面向主题的智能机器人ROBOT研究与实现〔J〕,电子与信息学报

[2]杜亚军等,爬行虫算法设计与程序实现〔J〕,计算机应用,24卷

[3] Heaton J, Programming Spiders,Bots and Aggregators in Java.

[4]Jeff Heaton[美],董兆丰译,网络机器人JAVA编程指南〔M〕,北京电子工业出版社

附录:代码

package com.spider;

import java.util.*;

import java.io.*;

import java.lang.reflect.*;

import com.spider.*;

public class Spider extends Thread implements ISpiderReportable {

protected IWorkloadStorable workload;

protected SpiderWorker pool[]

......

java网络蜘蛛_基于java网络蜘蛛程序相关推荐

  1. java 复杂网络分析_基于复杂网络的Java程序分析工具设计与实现思路浅谈

    基于复杂网络的Java程序分析工具设计与 实现思路浅谈 摘要:近年来,随着科学技术的进步,计算机技术发展速度的加快,使得软件价值也逐步提高,不管是软件系统的应用领域,还是其规模均获得了相应的扩大,且软 ...

  2. 基于java的网络爬虫_基于java实现网络爬虫

    [实例简介] 基于java实现的java爬虫,是我学习java来练练手的,java基础入门的学生可以考虑参考一下 [实例截图] [核心代码] 爬虫 ├── 暑假任务-爬虫系统 │   ├── bin ...

  3. java中国象棋网络对弈_基于JAVA的中国象棋对弈系统(附答辩记录)

    基于JAVA的中国象棋对弈系统(附答辩记录)(包含选题审批表,任务书,开题报告,中期报告,毕业论文7100字,程序) 摘  要:本毕业设计采用Java实现中国象棋对弈,可以由两个玩家操作来进行.其图形 ...

  4. java 酒店系统_基于JAVA的酒店管理系统

    <基于JAVA的酒店管理系统>由会员分享,可在线阅读,更多相关<基于JAVA的酒店管理系统(31页珍藏版)>请在人人文库网上搜索. 1.酒店管理系统,专业: 姓名: 指导教师, ...

  5. 五子棋java设计引言_基于JAVA的五子棋游戏系统设计与实现报告.doc

    PAGE \* MERGEFORMAT PAGE \* MERGEFORMAT I 基于JAVA的五子棋游戏系统设计与实现 专 业 电子信息工程 学 生 董永杰 指导教师 曾玉 摘要 PAGE \* ...

  6. java远控_基于java的远程控制 示例源码

    [实例简介]基于java的远程控制软件 [实例截图] 远程连接客户端如下: 服务端如下: [核心代码] package tcpudp; import java.awt.BorderLayout; im ...

  7. java中介系统平台_基于JAVA的房屋中介管理系统的设计与实现.ppt

    基于JAVA的房屋中介管理系统的设计与实现 校友录管理系统 的设计与实现 院系: 华科学院经济与管理系 班级 :电子商务102202H 姓名 :王 爽 学号: 201022120225 指导教师 :王 ...

  8. java查询序列_基于JAVA的苹果序列号查询api调用代码实例

    代码描述:基于JAVA的苹果序列号查询api调用代码实例 关联数据:苹果序列号 接口地址:http://www.juhe.cn/docs/api/id/37 1.[代码][Java]代码 import ...

  9. java图片管理系统_基于Java Web技术的图片管理系统的设计与实现.doc

    基于Java Web技术的图片管理系统 的设计与实现 本科毕业设计 目 录 第1章 引言6 1.1 课题研究目的及意义6 1.2 课题研究的内容7 2.1 用户功能需求7 图片收藏数据库查询系统图片收 ...

  10. JAVA爬电信_基于JAVA的电信基站接口调用代码实例

    代码描述:基于JAVA的电信基站接口调用代码实例 关联数据:电信基站 接口地址:http://www.juhe.cn/docs/api/id/16 1.[代码][Java]代码 import java ...

最新文章

  1. groovy–流程控制
  2. ROS上同时预览depth,IR,RGB 调试记录
  3. 01背包和完全背包问题
  4. ASP.NET 缓存与SQL Server结合使用
  5. GridControl详解(八)菜单
  6. 有关javabean的说法不正确的是_【以案说法】从业人员劳动保护用品费不能省!否则得不偿失.........
  7. java中wait的场景,wait——webdriver实用指南java版
  8. csharp添加引用路径_(2)添加path
  9. 信息学奥赛一本通(1066:满足条件的数累加)
  10. HTML的文本可以删除吗,如果内部包含一些文本,请删除html标记
  11. AdGuard for Mac(专业的广告拦截工具)
  12. 史上最便捷搭建 Zookeeper 的方法!
  13. 各种说明方法的答题格式_各种轴承安装方法说明及注意事项,避免这些坑提高轴承寿命...
  14. SurfaceView + MediaPlayer 实现列表循环播放视频
  15. 一线城市房价下跌 机构称年内限购难放松
  16. ARP欺骗-教程详解
  17. java.sql.date获取当前时间_关于JDBC中如何使用sql.Date获取当前时间以及对时间的操作和转换...
  18. html中阳历生日转换成农历,农历转阳历换算(阴历和阳历生日转换器)
  19. 同IP不同端口导致session冲突的解决方法
  20. Visual SourceSafe Explorer界面出现乱码+字体翻转

热门文章

  1. 跑路了,在国外当程序员有多爽?
  2. linux下cmake使用教程,超详细的cmake教程
  3. 商品中心 --- 淘宝类目属性体系
  4. Java Swing 如何让界面更加美观
  5. GIMP 教程:如何在 GIMP 中创建曲线文本
  6. 三、python解释器下载及安装手册
  7. SQL Server 的完整下载安装教程
  8. Mac使用JMeter录制脚本
  9. 计算机组成原理总结及知识网图
  10. 学习笔记-Matlab算法篇-动态规划